Modelleren met tidymodels in R
David Svancer
Data Scientist
Modelparameters die je vooraf instelt en de modelcomplexiteit bepalen
parsnip decision tree
cost_complexitytree_depthmin_n
De functie decision_tree() stelt standaardhyperparameters in
cost_complexity is 0,01tree_depth is 30min_n is 20Dit zijn niet altijd de beste waarden voor elke dataset
dt_model <- decision_tree() %>%
set_engine('rpart') %>%
set_mode('classification')
De functie tune() uit het tune-pakket
tune() in de parsnip-modelspecificatiedt_tune_model <- decision_tree(cost_complexity = tune(), tree_depth = tune(), min_n = tune()) %>% set_engine('rpart') %>% set_mode('classification')dt_tune_model
Decision Tree Model Specification (classification)
Main Arguments:
cost_complexity = tune()
tree_depth = tune()
min_n = tune()
Computational engine: rpart
workflow-objecten zijn makkelijk te updaten
leads_wkflleads_wkfl aan update_model() en lever een nieuwe decision tree met te tunen parametersleads_tune_wkfl <- leads_wkfl %>%update_model(dt_tune_model)leads_tune_wkfl
== Workflow ===============
Preprocessor: Recipe
Model: decision_tree()
-- Preprocessor -----------
3 Recipe Steps
* step_corr()
* step_normalize()
* step_dummy()
-- Model ------------------
Decision Tree Model Specification (classification)
Main Arguments: cost_complexity = tune()
tree_depth = tune()
min_n = tune()
Computational engine: rpart
Meest gebruikte methode voor hyperparametertuning
| cost_complexity | tree_depth | min_n |
|---|---|---|
| 0.001 | 20 | 35 |
| 0.001 | 20 | 15 |
| 0.001 | 35 | 35 |
| 0.001 | 35 | 15 |
| 0.2 | 20 | 35 |
| ... | ... | ... |
De functie parameters() uit het dials-pakket
parsnip-modelobjecttune() gelabeld zijn, indien aanwezigdialsparameters(dt_tune_model)
Collection of 3 parameters for tuning
identifier type object
cost_complexity cost_complexity nparam[+]
tree_depth tree_depth nparam[+]
min_n min_n nparam[+]
Willekeurige combinaties genereren
De functie grid_random()
parameters()size bepaalt het aantal willekeurige combinatiesset.seed() uit vóór grid_random() voor reproduceerbaarheidset.seed(214) grid_random(parameters(dt_tune_model),size = 5)
# A tibble: 5 x 3
cost_complexity tree_depth min_n
<dbl> <int> <int>
1 0.0000000758 14 39
2 0.0243 5 34
3 0.00000443 11 8
4 0.000000600 3 5
5 0.00380 5 36
Eerste stap in hyperparametertuning
dt_grid bevat 5 willekeurige combinaties van hyperparameterwaardenset.seed(214) dt_grid <- grid_random(parameters(dt_tune_model), size = 5)dt_grid
# A tibble: 5 x 3
cost_complexity tree_depth min_n
<dbl> <int> <int>
1 0.0000000758 14 39
2 0.0243 5 34
3 0.00000443 11 8
4 0.000000600 3 5
5 0.00380 5 36
De functie tune_grid() voert hyperparametertuning uit
Neemt de volgende argumenten:
workflow of parsnip-modelresamplesgridmetrics-functieGeeft een tibble met resultaten terug
.metricsdt_tuning <- leads_tune_wkfl %>%tune_grid(resamples = leads_folds,grid = dt_grid,metrics = leads_metrics)
dt_tuning
# Tuning results
# 10-fold cross-validation using stratification
# A tibble: 10 x 4
splits id .metrics ..
<list> <chr> <list> ..
<split [896/100]> Fold01 <tibble [15 x 7]> ..
................ ...... ............... ..
<split [897/99]> Fold09 <tibble [15 x 7]> ..
<split [897/99]> Fold10 <tibble [15 x 7]> ..
De functie collect_metrics() geeft standaard samengevatte resultaten
dt_tuning %>%
collect_metrics()
# A tibble: 15 x 9
cost_complexity tree_depth min_n .metric .estimator mean n std_err .config
<dbl> <int> <int> <chr> <chr> <dbl> <int> <dbl> <chr>
1 0.0000000758 14 39 roc_auc binary 0.827 10 0.0147 Model1
2 0.0000000758 14 39 sens binary 0.728 10 0.0277 Model1
3 0.0000000758 14 39 spec binary 0.865 10 0.0156 Model1
4 0.0243 5 34 roc_auc binary 0.823 10 0.0147 Model2
. ...... .. .. .... ...... ..... .. ..... ......
14 0.00380 5 36 sens binary 0.747 10 0.0209 Model5
15 0.00380 5 36 spec binary 0.858 10 0.0161 Model5
Modelleren met tidymodels in R