Meer modelmaatstaven

Machine Learning met boomgebaseerde modellen in R

Sandro Raabe

Data Scientist

Grenzen van accuracy

 

  • "Naïef" model dat altijd no voorspelt kan 98% nauwkeurigheid halen

→ Mogelijk bij een scheve dataset met 98% negatieve voorbeelden

Machine Learning met boomgebaseerde modellen in R

Sensitiviteit of true positive rate

  • Aandeel van alle positieve uitkomsten dat correct is geclassificeerd

confusion matrix met sensitiviteit

Machine Learning met boomgebaseerde modellen in R

Specificiteit of true negative rate

  • Aandeel van alle negatieve uitkomsten dat correct is geclassificeerd

confusion matrix met true negative rate

Machine Learning met boomgebaseerde modellen in R

tabel met verschillende drempels

Machine Learning met boomgebaseerde modellen in R

ROC (Receiver Operating Characteristic)-curve

  • Toont de prestaties van een classificatiemodel over alle mogelijke drempels

ROC-curveplot

Machine Learning met boomgebaseerde modellen in R

ROC-curve en AUC

verschillende ROC-curves

Machine Learning met boomgebaseerde modellen in R

Oppervlakte onder de ROC-curve

AUC-plot

  • AUC = 0,5
  • Niet beter dan toeval

 

  • AUC = 1
  • Alle voorbeelden goed bij elke drempel → perfect model

 

  • AUC = 0
  • Alle voorbeelden fout geclassificeerd
Machine Learning met boomgebaseerde modellen in R

yardstick sensitivity: sens()

predictions
# A tibble: 153 x 2
.pred_class   true_class
      <fct>        <fct>     
 1      yes           no        
 2       no           no        
 3       no          yes       
 4      yes          yes
# Calculate single-threshold sensitivity
sens(predictions, 
     estimate = .pred_class, 
     truth = true_class)
# A tibble: 1 x 2
  .metric        .estimate
  <chr>              <dbl>
1 sensitivity        0.872
  • Vergelijkbare argumenten als accuracy() en conf_mat()
Machine Learning met boomgebaseerde modellen in R

yardstick ROC: roc_curve()

# Predict probabilities on test set
predictions <- predict(model,
                       data_test,

type = "prob") %>%
bind_cols(data_test)
# A tibble: 9,116 x 13
   .pred_yes still_customer age gender    ...
       <dbl> <fct>         <int> <fct>    ...
 1    0.0557 no               45 M        ...
 2    0.0625 no               49 F        ...
 3    0.330  no               51 M        ...
 4    ...
 ...
# Calculate the ROC curve for all thresholds
roc <- roc_curve(predictions,

estimate = .pred_yes,
truth = still_customer)
# Plot the ROC curve autoplot(roc)

roc-curve

Machine Learning met boomgebaseerde modellen in R

yardstick AUC: roc_auc()

  • Zelfde argumenten: data, voorspalkolom, waarheidskolom
# Calculate area under curve
roc_auc(predictions, 
        estimate = .pred_yes, 
        truth = still_customer)
# A tibble: 1 x 3
  .metric .estimator .estimate
  <chr>   <chr>          <dbl>
1 roc_auc binary         0.872
Machine Learning met boomgebaseerde modellen in R

Laten we meten!

Machine Learning met boomgebaseerde modellen in R

Preparing Video For Download...