Classificatiemodellen evalueren

Machine Learning in de tidyverse

Dmitriy (Dima) Gorenshteyn

Lead Data Scientist, Memorial Sloan Kettering Cancer Center

Ingrediƫnten voor prestatiemeting

1) Werkelijke attrition-klassen
2) Voorspelde attrition-klassen
3) Een metriek om 1) en 2) te vergelijken

Machine Learning in de tidyverse

1) Bereid werkelijke klassen voor

attrition klasse
Yes TRUE
No FALSE
validate$Attrition
No  No  No  No  No  Yes No  Yes  ...  No  No  No
validate_actual <- validate$Attrition == "Yes"
validate_actual
FALSE FALSE FALSE FALSE FALSE  TRUE FALSE  TRUE ... FALSE FALSE FALSE
Machine Learning in de tidyverse

2) Bereid voorspelde klassen voor

P(attrition) klasse
$ \gt $ 0.5 TRUE
$ \le $ 0.5 FALSE
validate_prob <- predict(model, validate, type = "response")
validate_prob
0.324 0.012 0.077 0.001 0.104 0.940 0.116 0.811 0.261 0.027 0.065 0.060
validate_predicted <- validate_prob > 0.5
validate_predicted
FALSE FALSE FALSE FALSE FALSE  TRUE FALSE  TRUE FALSE FALSE FALSE FALSE
Machine Learning in de tidyverse

3) Een metriek om 1) en 2) te vergelijken

table(validate_actual, validate_predicted)
               validate_predicted
validate_actual FALSE TRUE
          FALSE   181    5
          TRUE     17   18
Machine Learning in de tidyverse

3) Metriek: accuracy

accuracy(validate_actual, validate_predicted)
0.9004525
Machine Learning in de tidyverse

3) Metriek: precision

precision(validate_actual, validate_predicted)
0.7826087
Machine Learning in de tidyverse

3) Metriek: recall

recall(validate_actual, validate_predicted)
0.5142857
Machine Learning in de tidyverse

Laten we oefenen!

Machine Learning in de tidyverse

Preparing Video For Download...