Histogramlar ve aykırı değerler

R ile Kredi Riski Modellemesi

Lore Dirick

Manager of Data Science Curriculum at Flatiron School

hist() fonksiyonunu kullanma

hist(loan_data$int_rate)

Faiz oranı histogramı

R ile Kredi Riski Modellemesi

hist() fonksiyonunu kullanma

hist(loan_data$int_rate, main = "Histogram of interest rate", xlab = "Interest rate")

Faiz oranı histogramı

R ile Kredi Riski Modellemesi

annual_inc üzerinde hist() kullanımı

hist(loan_data$annual_inc, xlab = "Annual Income", main = "Histogram of Annual Income")

Ekran Görüntüsü 12.06.2020 13.55.03.png

R ile Kredi Riski Modellemesi

annual_inc üzerinde hist() kullanımı

hist_income <- hist(loan_data$annual_inc,
                    xlab = "Annual Income",
                    main = "Histogram of Annual Income")
hist_income$breaks
0  500000 1000000 1500000 2000000 2500000 3000000 3500000 4000000 4500000 ...
R ile Kredi Riski Modellemesi

breaks argümanı

n_breaks <- sqrt(nrow(loan_data)) # n_breaks = 170.5638
hist_income_n <- hist(loan_data$annual_inc, breaks = n_breaks, 
                      xlab = "Annual Income", main = "Histogram of Annual Income")

Ekran Görüntüsü 12.06.2020 13.55.58.png

R ile Kredi Riski Modellemesi

annual_inc

plot(loan_data$annual_inc, ylab = "Annual Income")

Ekran Görüntüsü 12.06.2020 13.56.24.png

R ile Kredi Riski Modellemesi

annual_inc

plot(loan_data$annual_inc, ylab = "Annual Income")

Ekran Görüntüsü 12.06.2020 13.56.53.png

R ile Kredi Riski Modellemesi

Aykırı değerler

  • Bir değer ne zaman aykırıdır?

    • Uzman yargısı
    • Pratik kural, örn.

      • Q1 - 1.5 × IQR
      • Q3 + 1.5 × IQR
    • Çoğunlukla: her ikisinin birleşimi
R ile Kredi Riski Modellemesi

Uzman yargısı

"Yıllık maaş > 3 milyon $ aykırı"

$$

# Aykırı değeri bul
index_outlier_expert <- which(loan_data$annual_inc > 3000000)

# Aykırıyı veriden çıkar
loan_data_expert <- loan_data[-index_outlier_expert, ]
R ile Kredi Riski Modellemesi

Pratik kural

Q3 + 1.5 × IQR'den büyükse aykırı

$$

# Q3 + 1.5 × IQR hesapla
outlier_cutoff <- quantile(loan_data$annual_inc, 0.75) + 1.5 * IQR(loan_data$annual_inc)

# Aykırıları belirle index_outlier_ROT <- which(loan_data$annual_inc > outlier_cutoff)
# Aykırıları çıkar loan_data_ROT <- loan_data[-index_outlier_ROT, ]
R ile Kredi Riski Modellemesi
hist(loan_data_expert$annual_inc,
     sqrt(nrow(loan_data_expert)), 
     xlab = "Annual income")

hist(loan_data_ROT$annual_inc,
     sqrt(nrow(loan_data_ROT)), 
     xlab = "Annual income")

R ile Kredi Riski Modellemesi

İki değişkenli grafik

plot(loan_data$emp_length, loan_data$annual_inc, 
     xlab= "Employment length", ylab= "Annual income")

Ekran Görüntüsü 12.06.2020 13.58.14.png

R ile Kredi Riski Modellemesi

İki değişkenli grafik

plot(loan_data$emp_length, loan_data$annual_inc, 
     xlab= "Employment length", ylab= "Annual income")

Ekran Görüntüsü 12.06.2020 13.58.34.png

R ile Kredi Riski Modellemesi

Haydi pratik yapalım!

R ile Kredi Riski Modellemesi

Preparing Video For Download...