Validazione incrociata

Machine Learning con modelli ad albero in R

Sandro Raabe

Data Scientist

Validazione incrociata k-fold

dati divisi in k fold

Machine Learning con modelli ad albero in R

Validazione incrociata k-fold

fold 1 come test set

Machine Learning con modelli ad albero in R

Validazione incrociata k-fold

fold 2 come test set

Machine Learning con modelli ad albero in R

Validazione incrociata k-fold

fold 3 come test set

Machine Learning con modelli ad albero in R

Validazione incrociata k-fold

fold 4 come test set

Machine Learning con modelli ad albero in R

Validazione incrociata k-fold

fold 5 come test set

Machine Learning con modelli ad albero in R

Validazione incrociata k-fold

MAE totale con CV

Machine Learning con modelli ad albero in R

Addestra il modello finale su tutto il dataset

addestra il modello finale su tutto il dataset

Machine Learning con modelli ad albero in R

Coding - Dividi i dati 10 volte

# Random seed for reproducibility
set.seed(100)

# Create 10 folds of the dataset
chocolate_folds <- vfold_cv(chocolate_train, v = 10)
#  10-fold cross-validation
# A tibble: 10 x 2
  splits             id
1 <split [1293/144]> Fold1
2 <split [1293/144]> Fold2
3 <split [1293/144]> Fold3
4 ...
Machine Learning con modelli ad albero in R

Coding - Allena i fold

# Fit a model for every fold and calculate MAE and RMSE
fits_cv <- fit_resamples(tree_spec,

final_grade ~ .,
resamples = chocolate_folds,
metrics = metric_set(mae, rmse))
# Resampling results
# 10-fold cross-validation
# A tibble: 10 x 4
  splits             id    .metrics
  <list>             <chr> <list>
1 <split [1293/144]> Fold1 <tibble [2 x 4]>
2 <split [1293/144]> Fold2 <tibble [2 x 4]>
3 <split [1293/144]> Fold3 <tibble [2 x 4]>
4 ...
Machine Learning con modelli ad albero in R

Coding - Raccogli tutti gli errori

# Collect raw errors of all model runs
all_errors <- collect_metrics(fits_cv, 
                              summarize = FALSE)

print(all_errors)
# A tibble: 20 x 3
   id      .metric  .estimate
   <chr>     <chr>      <dbl>
 1 Fold01      mae      0.362
 2 Fold01     rmse      0.442
 3 Fold02      mae      0.385
 4 Fold02     rmse      0.504
 5 ...
library(ggplot2)
ggplot(all_errors, aes(x = .estimate, 
                       fill = .metric)) +
   geom_histogram()

istogramma degli errori

Machine Learning con modelli ad albero in R

Coding - Riassumi gli esperimenti

# Collect and summarize errors of all model runs
collect_metrics(fits_cv)
# A tibble: 2 x 3
  .metric   mean      n
  <chr>    <dbl>  <int>
1 mae      0.383     10
2 rmse     0.477     10
Machine Learning con modelli ad albero in R

Facciamo la cross-validation!

Machine Learning con modelli ad albero in R

Preparing Video For Download...