Modellazione con tidymodels in R
David Svancer
Data Scientist
Variabile di esito con due livelli
purchasedClasse negativa
In tidymodels l’esito deve essere un fattore
levels()leads_df
# A tibble: 1,328 x 7
purchased total_visits ... us_location
<fct> <dbl> ... <fct>
1 yes 7 ... west
2 no 8 ... west
3 no 5 ... southeast
# ... with 1,325 more rows
levels(leads_df[['purchased']])
[1] "yes" "no"
Matrice con i conteggi di tutte le combinazioni di valori reali e previsti
Previsioni corrette
Errori di classificazione
Creare matrici di confusione e altre metriche con yardstick
purchased.pred_class.pred_yes.pred_noleads_results
# A tibble: 332 x 4
purchased .pred_class .pred_yes .pred_no
<fct> <fct> <dbl> <dbl>
1 no no 0.134 0.866
2 yes yes 0.729 0.271
3 no no 0.133 0.867
4 no no 0.0916 0.908
5 yes yes 0.598 0.402
6 no no 0.128 0.872
7 yes no 0.112 0.888
8 no no 0.169 0.831
9 no no 0.158 0.842
10 yes yes 0.520 0.480
# ... with 322 more rows
La funzione conf_mat()
truth - colonna con gli esiti realiestimate - colonna con le previsioniRegressione logistica su leads_df
conf_mat(leads_results,truth = purchased,estimate = .pred_class)
Truth
Prediction yes no
yes 74 34
no 46 178
La funzione accuracy()
conf_mat()
$$\frac{TP + TN}{TP + TN + FP + FN}$$
yardstick restituiscono sempre un tibble.metric - tipo di metrica.estimate - valore calcolatoaccuracy(leads_results,
truth = purchased,
estimate = .pred_class)
# A tibble: 1 x 3
.metric .estimator .estimate
<chr> <chr> <dbl>
1 accuracy binary 0.759
Spesso l’accuratezza non è la metrica migliore
leads_df
Sensibilità
Quota dei positivi correttamente classificati
La funzione sens()
conf_mat() e accuracy().estimatesens(leads_results,
truth = purchased,
estimate = .pred_class)
# A tibble: 1 x 3
.metric .estimator .estimate
<chr> <chr> <dbl>
1 sens binary 0.617
La specificità è la quota dei negativi correttamente classificati
1 - Specificità
La funzione spec()
sens().estimatespec(leads_results,
truth = purchased,
estimate = .pred_class)
# A tibble: 1 x 3
.metric .estimator .estimate
<chr> <chr> <dbl>
1 spec binary 0.840
Set di metriche personalizzati
metric_set()yardstick scelteyardstick in metric_set()custom_metrics <-
metric_set(accuracy, sens, spec)
custom_metrics(leads_results,
truth = purchased,
estimate = .pred_class)
# A tibble: 3 x 3
.metric .estimator .estimate
<chr> <chr> <dbl>
1 accuracy binary 0.759
2 sens binary 0.617
3 spec binary 0.840
Metriche per classificazione binaria
Ampia varietà di metriche
accuracy(), kap(), sens(), spec(), ppv(), npv(), mcc(), j_index(), bal_accuracy(), detection_prevalence(), precision(), recall(), f_meas()Passa i risultati di conf_mat() a summary() per calcolarle tutte
conf_mat(leads_results, truth = purchased,
estimate = .pred_class) %>%
summary()
# A tibble: 13 x 3
.metric .estimator .estimate
<chr> <chr> <dbl>
1 accuracy binary 0.759
2 kap binary 0.466
3 sens binary 0.617
4 spec binary 0.840
5 ppv binary 0.685
6 npv binary 0.795
7 mcc binary 0.468
8 j_index binary 0.456
9 bal_accuracy binary 0.728
10 detection_prevalence binary 0.325
11 precision binary 0.685
12 recall binary 0.617
13 f_meas binary 0.649
Modellazione con tidymodels in R