Recherche par grille et aléatoire avec H2O

Optimisation des hyperparamètres en R

Dr. Shirin Elsinghorst

Senior Data Scientist

Hyperparamètres dans les modèles H2O

Hyperparamètres pour le Gradient Boosting :

?h2o.gbm

ntrees : Nombre d’arbres. Par défaut : 50.
max_depth : Profondeur maximale. Par défaut : 5.
min_rows : Nombre minimal d’observations (pondérées) dans une feuille. Par défaut : 10.
learn_rate : Taux d’apprentissage (0,0 à 1,0). Par défaut : 0,1.
learn_rate_annealing : Réduire le taux d’apprentissage par ce facteur après chaque arbre (ex. 0,99 ou 0,999). Par défaut : 1.

Préparer les données pour le modèle avec H2O

Convertir en H2O Frame

seeds_data_hf <- as.h2o(seeds_data)

Identifier features et cible

y <- "seed_type"
x <- setdiff(colnames(seeds_data_hf), y)

Diviser en ensembles train, test et validation

sframe <- h2o.splitFrame(data = seeds_data_hf, ratios = c(0.7, 0.15), seed = 42)
train <- sframe[[1]]
valid <- sframe[[2]]
test <- sframe[[3]]

Définir une grille d’hyperparamètres

Hyperparamètres GBM

gbm_params <- list(ntrees = c(100, 150, 200), max_depth = c(3, 5, 7), learn_rate = c(0.001, 0.01, 0.1))

Fonction h2o.grid

gbm_grid <- h2o.grid("gbm", 
                     grid_id = "gbm_grid",
                     x = x, 
                     y = y,
                     training_frame = train,
                     validation_frame = valid,
                     seed = 42,
                     hyper_params = gbm_params)

Examiner les résultats avec h2o.getGrid

Examiner un objet grille

Examiner les résultats de gbm_grid avec h2o.getGrid.
Obtenir la grille triée par précision de validation

gbm_gridperf <- h2o.getGrid(grid_id = "gbm_grid", sort_by = "accuracy", decreasing = TRUE)

ID de grille : gbm_grid 
Hyperparamètres utilisés : 
  -  learn_rate 
  -  max_depth 
  -  ntrees 
Nombre de modèles : 27 
Nombre de modèles en échec : 0 

Résumé de la recherche d’hyperparamètres : trié par précision décroissante

Extraire le meilleur modèle d’une grille

Le meilleur modèle GBM selon la précision de validation a l’ID en position 1

best_gbm <- h2o.getModel(gbm_gridperf@model_ids[[1]])

Voici les hyperparamètres du meilleur modèle :

print(best_gbm@model[["model_summary"]])

Résumé du modèle : 
 number_of_trees number_of_internal_trees model_size_in_bytes min_depth
             200                      600              100961         2 
 max_depth mean_depth min_leaves max_leaves mean_leaves
         7    5.22667          3         10     8.38833

Extraire le meilleur modèle d’une grille

best_gbm est un objet modèle H2O classique et se traite comme tel !

h2o.performance(best_gbm, test)

MSE : (Extraire avec `h2o.mse`) 0.04761904
RMSE : (Extraire avec `h2o.rmse`) 0.2182179
Logloss : (Extraire avec `h2o.loglos

Recherche aléatoire avec H2O

En plus de la grille d’hyperparamètres, ajoutez des critères de recherche :

gbm_params <- list(ntrees = c(100, 150, 200),
                   max_depth = c(3, 5, 7),
                   learn_rate = c(0.001, 0.01, 0.1))

search_criteria <- list(strategy = "RandomDiscrete", 
                        max_runtime_secs = 60, 
                        seed = 42)

gbm_grid <- h2o.grid("gbm", 
                     grid_id = "gbm_grid",
                     x = x, y = y,
                     training_frame = train,
                     validation_frame = valid,
                     seed = 42,
                     hyper_params = gbm_params,
                     search_criteria = search_criteria)

search_criteria <- list(strategy = "RandomDiscrete", 
                        stopping_metric = "mean_per_class_error", 
                        stopping_tolerance = 0.0001, 
                        stopping_rounds = 6)

gbm_grid <- h2o.grid("gbm", x = x, y = y, training_frame = train, validation_frame = valid, 
                      seed = 42, hyper_params = gbm_params, search_criteria = search_criteria)

Détails de la grille H2O
========================
ID de grille : gbm_grid 
Hyperparamètres utilisés : 
  -  learn_rate 
  -  max_depth 
  -  ntrees 
Nombre de modèles : 30 
Nombre de modèles en échec : 0

Passons à la pratique !

Optimisation des hyperparamètres en R