Pemangkasan pohon keputusan

Pemodelan Risiko Kredit di R

Lore Dirick

Manager of Data Science Curriculum at Flatiron School

Masalah pada pohon keputusan besar

  • Terlalu kompleks: tidak lagi jelas
  • Overfitting saat diterapkan ke test set
  • Solusi: gunakan printcp(), plotcp() untuk pemangkasan
Pemodelan Risiko Kredit di R

Printcp dan tree_undersample

printcp(tree_undersample)
Classification tree:
rpart(formula = loan_status ~ ., data = undersampled_training_set, method = "class",
 control = rpart.control(cp = 0.001))
Variables actually used in tree construction:
age    annual_inc     emp_cat     grade    home_ownership   ir_cat     loan_amnt     
Root node error: 2190/6570 = 0.33333
n= 6570 
        CP    nsplit  rel error   xerror      xstd
1  0.0059361      0    1.00000   1.00000   0.017447
2  0.0044140      4    0.97443   0.99909   0.017443
3  0.0036530      7    0.96119   0.98174   0.017366
4  0.0031963      8    0.95753   0.98904   0.017399
               ...  
16 0.0010654     76    0.84247   1.02511   0.017554
17 0.0010000     79    0.83927   1.02511   0.017554
Pemodelan Risiko Kredit di R

Plotcp dan tree_undersample

Tangkapan layar 2020-06-22 pukul 5.57.10 PM.png

Pemodelan Risiko Kredit di R

Plotcp dan tree_undersample

Tangkapan layar 2020-06-22 pukul 5.56.53 PM.png

$$

$CP = 0.003653$

Pemodelan Risiko Kredit di R

Plot pohon yang dipangkas

Tangkapan layar 2020-06-23 pukul 6.16.04 PM.png

ptree_undersample=prune(tree_undersample,
                        cp = 0.003653)

plot(ptree_undersample,
     uniform=TRUE)

text(ptree_undersample)
Pemodelan Risiko Kredit di R

Plot pohon yang dipangkas

Tangkapan layar 2020-06-23 pukul 6.15.42 PM.png

ptree_undersample=prune(tree_undersample,
                        cp = 0.003653)

plot(ptree_undersample,
     uniform=TRUE)

text(ptree_undersample,
     use.n=TRUE)
Pemodelan Risiko Kredit di R

prp() di paket rpart.plot

Tangkapan layar 2020-06-22 pukul 6.05.09 PM.png

library(rpart.plot)
prp(ptree_undersample)
Pemodelan Risiko Kredit di R

prp() di paket part.plot

Tangkapan layar 2020-06-22 pukul 6.04.33 PM.png

library(rpart.plot)
prp(ptree_undersample, extra = 1)
Pemodelan Risiko Kredit di R

Ayo berlatih!

Pemodelan Risiko Kredit di R

Preparing Video For Download...