Lojistik regresyon: giriş

R ile Kredi Riski Modellemesi

Lore Dirick

Manager of Data Science Curriculum at Flatiron School

Nihai veri yapısı

str(training_set)
'data.frame':\t19394 gözlem, 8 değişken:
 $ loan_status   : Faktör w/ 2 seviye "0","1": 1 1 1 1 1 1 1 1 1 1 ...
 $ loan_amnt     : int  25000 16000 8500 9800 3600 6600 3000 7500 6000 22750 ...
 $ grade         : Faktör w/ 7 seviye "A","B","C","D",..: 2 4 1 2 1 1 1 2 1 1 ...
 $ home_ownership: Faktör w/ 4 seviye "MORTGAGE","OTHER",..: 4 4 1 1 1 3 4 3 4 1 ...
 $ annual_inc    : num  91000 45000 110000 102000 40000 ...
 $ age           : int  34 25 29 24 59 35 24 24 26 25 ...
 $ emp_cat       : Faktör w/ 5 seviye "0-15","15-30",..: 1 1 1 1 1 2 1 1 1 1 ...
 $ ir_cat        : Faktör w/ 5 seviye "0-8","11-13.5",..: 2 3 1 4 1 1 1 4 1 1 ...
R ile Kredi Riski Modellemesi

Lojistik regresyon nedir?

  • Çıktısı 0 ile 1 arasında olan bir regresyon modeli

$$P({\text{loan status}}=1|x_1,...,x_m) = \frac{1}{1+e^{-(\beta_0 + \beta_1 x_1 + ... + \beta_m x_m)}}$$

  • $x_1,...,x_m$:
loan_amnt  grade  age  annual_inc  home_ownership  emp_cat  ir_cat
  • $\beta_0,...\beta_m$: Tahmin edilecek parametreler

  • $\beta_0 + \beta_1 x_1 + ... + \beta_m x_m$: Doğrusal yordayıcı

R ile Kredi Riski Modellemesi

R'de lojistik model uydurma

log_model <- glm(loan_status ~ age , 
                 family= "binomial", data = training_set)
log_model
Çağrı:  glm(formula = loan_status ~ age, 
           family = "binomial", data = training_set)
Katsayılar:
(Intercept)          age  
  -1.793566    -0.009726  
Serbestlik Derecesi: 19393 Toplam (yani Null);  19392 Artık
Null Sapması:\t    13680 
Artık Sapma: 13670 \tAIC: 13670

$$P({\text{loan status}}=1|\text{age}) = \frac{1}{1+e^{-(\hat{\beta_0} + \hat{\beta_1} \text{age})}}$$

R ile Kredi Riski Modellemesi

Temerrüt olasılıkları

$$P({\text{loan status}}=1|x_1,...,x_m) = \frac{1}{1+e^{-(\beta_0 + \beta_1 x_1 + ... + \beta_m x_m)}} = \frac{e^{\beta_0 + \beta_1 x_1 + ... + \beta_m x_m}}{1 + e^{\beta_0 + \beta_1 x_1 + ... + \beta_m x_m}}$$

$$

$$P({\text{loan status}}=0|x_1,...,x_m) = 1- \frac{e^{\beta_0 + \beta_1 x_1 + ... + \beta_m x_m}}{1 + e^{\beta_0 + \beta_1 x_1 + ... + \beta_m x_m}} = \frac{1}{1+e^{\beta_0 + \beta_1 x_1 + ... + \beta_m x_m}}$$

$$

$$\frac{P({\text{loan status}}=1|x_1,...,x_m)}{P({loan \space status}=0|x_1,...,x_m)} = e^{\beta_0 + \beta_1 x_1 + ... + \beta_m x_m}$$

  • loan_status = 1 lehine olasılık oranı (odds)
R ile Kredi Riski Modellemesi

Katsayının yorumu

  • Değişken $x_j$ 1 artarsa
    • Olasılık oranı $e^{\beta j}$ ile çarpılır
  • $\beta_j < 0$
    • $e^{\beta j} < 1$
    • $x_j$ arttıkça olasılık oranı azalır
  • $\beta_j > 0$
    • $e^{\beta j} > 1$
    • $x_j$ arttıkça olasılık oranı artar

Modelimize uygulandığında:

  • age değişkeni 1 artarsa
    • Olasılık oranı $e^{-0.009726}$ ile çarpılır
    • Olasılık oranı 0.991 ile çarpılır
R ile Kredi Riski Modellemesi

Haydi pratik yapalım!

R ile Kredi Riski Modellemesi

Preparing Video For Download...