Valutare i modelli di classificazione

Machine Learning nel tidyverse

Dmitriy (Dima) Gorenshteyn

Lead Data Scientist, Memorial Sloan Kettering Cancer Center

Ingredienti per misurare le prestazioni

1) Classi attrition reali
2) Classi attrition predette
3) Una metrica per confrontare 1) e 2)

Machine Learning nel tidyverse

1) Prepara le classi reali

attrition classe
Yes TRUE
No FALSE
validate$Attrition
No  No  No  No  No  Yes No  Yes  ...  No  No  No
validate_actual <- validate$Attrition == "Yes"
validate_actual
FALSE FALSE FALSE FALSE FALSE  TRUE FALSE  TRUE ... FALSE FALSE FALSE
Machine Learning nel tidyverse

2) Prepara le classi predette

P(attrition) classe
$ \gt $ 0.5 TRUE
$ \le $ 0.5 FALSE
validate_prob <- predict(model, validate, type = "response")
validate_prob
0.324 0.012 0.077 0.001 0.104 0.940 0.116 0.811 0.261 0.027 0.065 0.060
validate_predicted <- validate_prob > 0.5
validate_predicted
FALSE FALSE FALSE FALSE FALSE  TRUE FALSE  TRUE FALSE FALSE FALSE FALSE
Machine Learning nel tidyverse

3) Una metrica per confrontare 1) e 2)

table(validate_actual, validate_predicted)
               validate_predicted
validate_actual FALSE TRUE
          FALSE   181    5
          TRUE     17   18
Machine Learning nel tidyverse

3) Metrica: Accuracy

accuracy(validate_actual, validate_predicted)
0.9004525
Machine Learning nel tidyverse

3) Metrica: Precision

precision(validate_actual, validate_predicted)
0.7826087
Machine Learning nel tidyverse

3) Metrica: Recall

recall(validate_actual, validate_predicted)
0.5142857
Machine Learning nel tidyverse

Passiamo alla pratica!

Machine Learning nel tidyverse

Preparing Video For Download...