Het beste model kiezen

Modelleren met tidymodels in R

David Svancer

Data Scientist

Gedetailleerde tuningresultaten

De functie collect_metrics() geeft standaard samengevatte resultaten

  • Met summarize = FALSE krijg je alle tuningresultaten voor hyperparameters
dt_tuning %>% 
  collect_metrics(summarize = FALSE)
# A tibble: 150 x 8
 id     cost_complexity tree_depth min_n .metric  ...  .estimate  .config
<chr>        <dbl>         <int>   <int>  <chr>   ...    <dbl>      <chr>  
Fold01    0.0000000758     14       39    sens    ...     0.75     Model1 
Fold01    0.0000000758     14       39    spec    ...     0.906    Model1 
Fold01    0.0000000758     14       39    roc_auc ...     0.888    Model1 
.....     ............     ..       ..    ......  ...     .....    ......
Fold10    0.00380          5        36    roc_auc ...     0.789    Model5
Modelleren met tidymodels in R

Tuningresultaten verkennen

Met summarise = FALSE in collect_metrics() krijg je een tibble

  • Resultaten makkelijk verkennen met dplyr
  • ROC AUC verkennen
    • Kies de roc_auc-metric
    • Groepeer op kolom id
    • Bereken .estimate-samenvattingsstatistieken
dt_tuning %>% 
  collect_metrics(summarize = FALSE) %>% 

filter(.metric == 'roc_auc') %>%
group_by(id) %>%
summarize(min_roc_auc = min(.estimate), median_roc_auc = median(.estimate), max_roc_auc = max(.estimate))
# A tibble: 10 x 4
 id     min_roc_auc  median_roc_auc  max_roc_auc
<chr>      <dbl>          <dbl>       <dbl>
Fold01     0.830          0.885       0.888
Fold02     0.857          0.882       0.885
Fold03     0.818          0.836       0.836
......     ....           ....        ....
Fold10     0.762          0.790       0.813
Modelleren met tidymodels in R

De best presterende modellen bekijken

De functie show_best()

  • Toont de top-n modellen op basis van de gemiddelde waarde van metric
  • Model1 is de winnaar
dt_tuning %>% 
  show_best(metric = 'roc_auc', n = 5)
# A tibble: 5 x 9
cost_complexity  tree_depth  min_n  .metric .estimator   mean    n    std_err  .config
    <dbl>           <int>    <int>    <chr>   <chr>      <dbl>  <int>  <dbl>    <chr>
0.0000000758         14       39     roc_auc  binary     0.827   10   0.0147   Model1 
0.00380               5       36     roc_auc  binary     0.825   10   0.0146   Model5 
0.0243                5       34     roc_auc  binary     0.823   10   0.0147   Model2 
0.00000443           11       8      roc_auc  binary     0.816   10   0.00786  Model3 
0.000000600           3       5      roc_auc  binary     0.814   10   0.0131   Model4
Modelleren met tidymodels in R

Een model kiezen

De functie select_best()

  • Geef dt_tuning-resultaten door aan select_best()
  • Kies de metric waarop je de prestatie beoordeelt

 

Geeft een tibble terug met het best presterende model en hyperparametervalidaties

best_dt_model <- dt_tuning %>% 
  select_best(metric = 'roc_auc')

best_dt_model

 

# A tibble: 1 x 4
cost_complexity tree_depth  min_n  .config
     <dbl>         <int>    <int>   <chr>  
0.0000000758        14       39     Model1
Modelleren met tidymodels in R

De workflow finaliseren

De functie finalize_workflow() finaliseert een workflow met een modelobject met tuningparameters

  • Geef het workflow-object door
  • Een tibble met één rij met definitieve hyperparameterewaarden
    • Kolomnamen moeten overeenkomen met hyperparameters in het modelobject

 

Retourneert een workflow-object met ingestelde hyperparameters

final_leads_wkfl <- leads_tune_wkfl %>% 
  finalize_workflow(best_dt_model)

final_leads_wkfl
== Workflow ========================================
Preprocessor: Recipe
Model: decision_tree()
-- Preprocessor ------------------------------------
3 Recipe Steps
* step_corr()
* step_normalize()
* step_dummy()
-- Model --------------------------------------------
Decision Tree Model Specification (classification)
Main Arguments:
  cost_complexity = 0.0000000758
  tree_depth = 14
  min_n = 39
Computational engine: rpart
Modelleren met tidymodels in R

Model fitten

Het gefinaliseerde workflow-object kun je trainen met last_fit() en het oorspronkelijke datasplit-object leads_split

 

Achter de schermen

  • Train- en testsets gemaakt
  • recipe getraind en toegepast
  • Getunede beslisboom getraind op de hele trainset
  • Voorspellingen en metrics op de testset
leads_final_fit <- final_leads_wkfl %>% 
  last_fit(split = leads_split)

leads_final_fit %>% collect_metrics()

 

# A tibble: 2 x 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.771
2 roc_auc  binary         0.793
Modelleren met tidymodels in R

Laten we oefenen!

Modelleren met tidymodels in R

Preparing Video For Download...