Selezionare il modello migliore

Modellazione con tidymodels in R

David Svancer

Data Scientist

Risultati di tuning dettagliati

La funzione collect_metrics() fornisce di default risultati riassunti

  • Passando summarize = FALSE ottieni tutti i risultati del tuning degli iperparametri
dt_tuning %>% 
  collect_metrics(summarize = FALSE)
# A tibble: 150 x 8
 id     cost_complexity tree_depth min_n .metric  ...  .estimate  .config
<chr>        <dbl>         <int>   <int>  <chr>   ...    <dbl>      <chr>  
Fold01    0.0000000758     14       39    sens    ...     0.75     Model1 
Fold01    0.0000000758     14       39    spec    ...     0.906    Model1 
Fold01    0.0000000758     14       39    roc_auc ...     0.888    Model1 
.....     ............     ..       ..    ......  ...     .....    ......
Fold10    0.00380          5        36    roc_auc ...     0.789    Model5
Modellazione con tidymodels in R

Esplorare i risultati di tuning

Selezionando summarise = FALSE in collect_metrics() ottieni una tibble

  • Facile esplorare i risultati con dplyr
  • Esplorare ROC AUC
    • Seleziona la metrica roc_auc
    • Raggruppa per colonna id
    • Calcola statistiche riassuntive di .estimate
dt_tuning %>% 
  collect_metrics(summarize = FALSE) %>% 

filter(.metric == 'roc_auc') %>%
group_by(id) %>%
summarize(min_roc_auc = min(.estimate), median_roc_auc = median(.estimate), max_roc_auc = max(.estimate))
# A tibble: 10 x 4
 id     min_roc_auc  median_roc_auc  max_roc_auc
<chr>      <dbl>          <dbl>       <dbl>
Fold01     0.830          0.885       0.888
Fold02     0.857          0.882       0.885
Fold03     0.818          0.836       0.836
......     ....           ....        ....
Fold10     0.762          0.790       0.813
Modellazione con tidymodels in R

Vedere i modelli migliori

La funzione show_best()

  • Mostra i primi n modelli in base al valore medio di metric
  • Model1 è il vincitore
dt_tuning %>% 
  show_best(metric = 'roc_auc', n = 5)
# A tibble: 5 x 9
cost_complexity  tree_depth  min_n  .metric .estimator   mean    n    std_err  .config
    <dbl>           <int>    <int>    <chr>   <chr>      <dbl>  <int>  <dbl>    <chr>
0.0000000758         14       39     roc_auc  binary     0.827   10   0.0147   Model1 
0.00380               5       36     roc_auc  binary     0.825   10   0.0146   Model5 
0.0243                5       34     roc_auc  binary     0.823   10   0.0147   Model2 
0.00000443           11       8      roc_auc  binary     0.816   10   0.00786  Model3 
0.000000600           3       5      roc_auc  binary     0.814   10   0.0131   Model4
Modellazione con tidymodels in R

Selezionare un modello

La funzione select_best()

  • Passa i risultati di dt_tuning a select_best()
  • Scegli la metric su cui valutare le prestazioni

 

Restituisce una tibble con il modello migliore e i valori degli iperparametri

best_dt_model <- dt_tuning %>% 
  select_best(metric = 'roc_auc')

best_dt_model

 

# A tibble: 1 x 4
cost_complexity tree_depth  min_n  .config
     <dbl>         <int>    <int>   <chr>  
0.0000000758        14       39     Model1
Modellazione con tidymodels in R

Finalizzare il workflow

La funzione finalize_workflow() finalizza un workflow che contiene un modello con parametri da ottimizzare

  • Passa l’oggetto workflow
  • Una tibble con una riga di valori finali degli iperparametri
    • I nomi colonna devono corrispondere agli iperparametri nel modello

 

Restituisce un oggetto workflow con iperparametri impostati

final_leads_wkfl <- leads_tune_wkfl %>% 
  finalize_workflow(best_dt_model)

final_leads_wkfl
== Workflow ========================================
Preprocessor: Recipe
Model: decision_tree()
-- Preprocessor ------------------------------------
3 Recipe Steps
* step_corr()
* step_normalize()
* step_dummy()
-- Model --------------------------------------------
Decision Tree Model Specification (classification)
Main Arguments:
  cost_complexity = 0.0000000758
  tree_depth = 14
  min_n = 39
Computational engine: rpart
Modellazione con tidymodels in R

Addestrare il modello

Il workflow finalizzato può essere addestrato con last_fit() e lo split originale, leads_split

 

Dietro le quinte

  • Creati training e test set
  • recipe addestrata e applicata
  • Albero decisionale ottimizzato addestrato su tutto il training set
  • Predizioni e metriche sul test set
leads_final_fit <- final_leads_wkfl %>% 
  last_fit(split = leads_split)

leads_final_fit %>% collect_metrics()

 

# A tibble: 2 x 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.771
2 roc_auc  binary         0.793
Modellazione con tidymodels in R

Passons à la pratique !

Modellazione con tidymodels in R

Preparing Video For Download...