Apprentissage automatique avec H2O

Optimisation des hyperparamètres en R

Dr. Shirin Elsinghorst

Senior Data Scientist

Qu’est-ce que H2O ?

library(h2o)
h2o.init()

H2O ne tourne pas encore, démarrage en cours…
java version "1.8.0_351"
Java(TM) SE Runtime Environment (build 1.8.0_351-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.351-b10, mixed mode)
Démarrage de la JVM H2O et connexion : ... Connexion réussie !
R est connecté au cluster H2O : 
    Uptime du cluster H2O :         1 secondes 620 millisecondes 
    Fuseau horaire du cluster H2O : UTC 
    Fuseau horaire de parsing H2O : UTC 
    Version du cluster H2O :        3.38.0.1 
    Âge de la version H2O :         2 mois et 25 jours  
    Nom du cluster H2O :            H2O_started_from_R_repl_chk886 
    Nombre total de nœuds :         1 
    Mémoire totale du cluster :     0.98 GB 
    Cœurs totaux du cluster :       2 
    Cœurs autorisés du cluster :    2 
    Santé du cluster H2O :          TRUE 
    IP de connexion H2O :           localhost 
    Port de connexion H2O :         54321 
    Proxy de connexion H2O :        NA 
    Sécurité interne H2O :          FALSE 
    Version de R :                  R version 4.2.1 (2022-06-23)

Nouveau jeu de données : graines

glimpse(seeds_data)

Observations : 150
Variables : 8
$ area          <dbl> 15.26, 14.88, 14.29, 13.84 ...
$ perimeter     <dbl> 14.84, 14.57, 14.09, 13.94 ...
$ compactness   <dbl> 0.8710, 0.8811, 0.9050 ...
$ kernel_length <dbl> 5.763, 5.554, 5.291, 5.324 ...
$ kernel_width  <dbl> 3.312, 3.333, 3.337, 3.379 ...
$ asymmetry     <dbl> 2.2210, 1.0180, 2.6990 ...
$ kernel_groove <dbl> 5.220, 4.956, 4.825, 4.805 ...
$ seed_type     <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

seeds_data %>%
  count(seed_type)

# A tibble: 3 x 2
  seed_type     n
      <int> <int>
1         1    50
2         2    50
3         3    50

Préparer les données pour le modélisme avec H2O

Données en H2O Frame
```
seeds_data_hf <- as.h2o(seeds_data)
```

Définir les features et la cible

y <- "seed_type"
x <- setdiff(colnames(seeds_data_hf), y)

Pour une classification, la cible doit être un facteur
```
seeds_data_hf[, y] <- as.factor(seeds_data_hf[, y])
```

Ensembles d’entraînement, de validation et de test

sframe <- h2o.splitFrame(data = seeds_data_hf, 
                         ratios = c(0.7, 0.15),
                         seed = 42)
train <- sframe[[1]]
valid <- sframe[[2]]
test <- sframe[[3]]

summary(train$seed_type, exact_quantiles = TRUE)

seed_type
 1:36     
 2:36     
 3:35

summary(test$seed_type, exact_quantiles = TRUE)

 seed_type
 1:8      
 2:8      
  3:5

Entraîner des modèles avec H2O

Modèles boosting de gradient avec h2o.gbm() et h2o.xgboost()
Modèles linéaires généralisés avec h2o.glm()
Forêts aléatoires avec h2o.randomForest()
Réseaux de neurones avec h2o.deeplearning()

Entraîner des modèles avec H2O

gbm_model <- h2o.gbm(x = x, y = y, 
                     training_frame = train, 
                     validation_frame = valid)

Détails du modèle :
===================

H2OMultinomialModel: gbm
ID du modèle :  GBM_model_R_1540736041817_1 
Résumé du modèle : 
number_of_trees number_of_internal_trees model_size_in_bytes min_depth 
             50                      150               24877         2 
max_depth mean_depth min_leaves max_leaves mean_leaves
        5    4.72000          3         10     8.26667

Performance du modèle

perf <- h2o.performance(gbm_model, test)

h2o.confusionMatrix(perf)

Matrice de confusion : Lignes = classe réelle ; Colonnes = classe prédite
       1 2 3  Erreur     Taux
1      7 0 1 0.1250 =  1 / 8
2      0 8 0 0.0000 =  0 / 8
3      0 0 5 0.0000 =  0 / 5
Totaux 7 8 6 0.0476 = 1 / 21

h2o.logloss(perf)

0.2351779

Prédire de nouvelles données

h2o.predict(gbm_model, test)

Passons à la pratique !

Optimisation des hyperparamètres en R