Hyperparametertuning

Modelleren met tidymodels in R

David Svancer

Data Scientist

Hyperparameters

Modelparameters die je vooraf instelt en de modelcomplexiteit bepalen

parsnip decision tree

  • cost_complexity
    • Beboet een groot aantal terminale knopen
  • tree_depth
    • Langste pad van wortel naar terminale knoop
  • min_n
    • Minimum aantal punten in een knoop voor verdere splitsing

Rechthoekige regio’s van decision tree-model

Modelleren met tidymodels in R

Standaardwaarden voor hyperparameters

De functie decision_tree() stelt standaardhyperparameters in

  • cost_complexity is 0,01
  • tree_depth is 30
  • min_n is 20

Dit zijn niet altijd de beste waarden voor elke dataset

  • Hyperparametertuning
    • Proces: via cross-validatie de optimale set hyperparameterwaarden vinden
dt_model <- decision_tree() %>% 
  set_engine('rpart') %>% 
  set_mode('classification')
Modelleren met tidymodels in R

Hyperparameters labelen voor tuning

De functie tune() uit het tune-pakket

  • Label hyperparameters voor tuning door ze gelijk te zetten aan tune() in de parsnip-modelspecificatie
  • Maakt een modelobject met te tunen parameters
    • Laat andere functies weten dat deze geoptimaliseerd moeten worden
dt_tune_model <- decision_tree(cost_complexity = tune(),
                               tree_depth = tune(),
                               min_n = tune()) %>% 
  set_engine('rpart') %>% 
  set_mode('classification')

dt_tune_model
Decision Tree Model Specification (classification)

Main Arguments:
  cost_complexity = tune()
  tree_depth = tune()
  min_n = tune()

Computational engine: rpart
Modelleren met tidymodels in R

Een tuning-workflow maken

workflow-objecten zijn makkelijk te updaten

  • Eerder: leads_wkfl
    • Feature engineering voor lead-scoring en decision tree met standaardhyperparameters
  • Geef leads_wkfl aan update_model() en lever een nieuwe decision tree met te tunen parameters
leads_tune_wkfl <- leads_wkfl %>% 

update_model(dt_tune_model)
leads_tune_wkfl
== Workflow ===============
Preprocessor: Recipe
Model: decision_tree()
-- Preprocessor -----------
3 Recipe Steps
* step_corr()
* step_normalize()
* step_dummy()
-- Model ------------------
Decision Tree Model Specification (classification)
Main Arguments: cost_complexity = tune()
                tree_depth = tune()
                min_n = tune()
Computational engine: rpart
Modelleren met tidymodels in R

Grid search

Meest gebruikte methode voor hyperparametertuning

  • Maak een raster met unieke combinaties van hyperparameterwaarden
    • Gebruik voor elke combinatie cross-validatie om prestaties te schatten
  • Kies de best presterende combinatie

 

cost_complexity tree_depth min_n
0.001 20 35
0.001 20 15
0.001 35 35
0.001 35 15
0.2 20 35
... ... ...
Modelleren met tidymodels in R

Hyperparameters identificeren

De functie parameters() uit het dials-pakket

  • Neemt een parsnip-modelobject
  • Geeft een tibble terug met hyperparameters die met tune() gelabeld zijn, indien aanwezig
    • Te gebruiken voor het maken van tuning-grids met dials
parameters(dt_tune_model)
Collection of 3 parameters for tuning

  identifier            type     object
cost_complexity  cost_complexity nparam[+]
tree_depth       tree_depth      nparam[+]
min_n            min_n           nparam[+]
Modelleren met tidymodels in R

Willekeurig grid

Willekeurige combinaties genereren

  • Deze methode vergroot vaak de kans om optimale waarden te vinden

De functie grid_random()

  • Eerste argument is de output van parameters()
  • size bepaalt het aantal willekeurige combinaties
    • Voer set.seed() uit vóór grid_random() voor reproduceerbaarheid
set.seed(214)
grid_random(parameters(dt_tune_model),

size = 5)
# A tibble: 5 x 3
  cost_complexity  tree_depth min_n
            <dbl>      <int>  <int>
1    0.0000000758        14     39
2    0.0243               5     34
3    0.00000443          11      8
4    0.000000600          3      5
5    0.00380              5     36
Modelleren met tidymodels in R

Een tuning-grid opslaan

Eerste stap in hyperparametertuning

  • Maak en bewaar een tuning-grid
  • dt_grid bevat 5 willekeurige combinaties van hyperparameterwaarden
set.seed(214)
dt_grid <- grid_random(parameters(dt_tune_model),
                       size = 5)

dt_grid
# A tibble: 5 x 3
  cost_complexity  tree_depth min_n
            <dbl>      <int>  <int>
1    0.0000000758        14     39
2    0.0243               5     34
3    0.00000443          11      8
4    0.000000600          3      5
5    0.00380              5     36
Modelleren met tidymodels in R

Hyperparametertuning met cross-validatie

De functie tune_grid() voert hyperparametertuning uit

Neemt de volgende argumenten:

  • workflow of parsnip-model
  • Cross-validatieobject, resamples
  • Tuning-grid, grid
  • Optionele metrics-functie

Geeft een tibble met resultaten terug

  • .metrics
    • Lijstkolom met resultaten per fold
dt_tuning <- leads_tune_wkfl %>%

tune_grid(resamples = leads_folds,
grid = dt_grid,
metrics = leads_metrics)
dt_tuning
# Tuning results
# 10-fold cross-validation using stratification 
# A tibble: 10 x 4
   splits             id       .metrics         ..
   <list>            <chr>      <list>          ..
<split [896/100]>   Fold01   <tibble [15 x 7]>  ..
................    ......   ...............    ..
<split [897/99]>    Fold09   <tibble [15 x 7]>  ..
<split [897/99]>    Fold10   <tibble [15 x 7]>  ..
Modelleren met tidymodels in R

Tuningresultaten verkennen

De functie collect_metrics() geeft standaard samengevatte resultaten

  • Gemiddelde metriekwaarden over alle folds per combinatie
dt_tuning %>% 
  collect_metrics()
# A tibble: 15 x 9
   cost_complexity tree_depth min_n .metric .estimator  mean     n std_err .config
             <dbl>      <int> <int> <chr>   <chr>      <dbl> <int>   <dbl> <chr>  
 1    0.0000000758         14    39 roc_auc binary     0.827    10 0.0147  Model1 
 2    0.0000000758         14    39 sens    binary     0.728    10 0.0277  Model1 
 3    0.0000000758         14    39 spec    binary     0.865    10 0.0156  Model1 
 4    0.0243                5    34 roc_auc binary     0.823    10 0.0147  Model2 
 .    ......               ..    .. ....    ......     .....    .. .....   ......
14    0.00380               5    36 sens    binary     0.747    10 0.0209  Model5 
15    0.00380               5    36 spec    binary     0.858    10 0.0161  Model5
Modelleren met tidymodels in R

Aan de slag met tunen!

Modelleren met tidymodels in R

Preparing Video For Download...