Machine learning con H2O

Ottimizzazione degli iperparametri in R

Dr. Shirin Elsinghorst

Senior Data Scientist

Cos’è H2O?

library(h2o)
h2o.init()

H2O non è ancora in esecuzione, avvio in corso...
java version "1.8.0_351"
Java(TM) SE Runtime Environment (build 1.8.0_351-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.351-b10, mixed mode)
Avvio JVM di H2O e connessione: ... Connessione riuscita!
R è connesso al cluster H2O: 
    Uptime del cluster H2O:     1 secondi 620 millisecondi 
    Fuso orario del cluster:    UTC 
    Fuso orario parsing dati:   UTC 
    Versione cluster H2O:       3.38.0.1 
    Età versione cluster H2O:   2 mesi e 25 giorni  
    Nome cluster H2O:           H2O_started_from_R_repl_chk886 
    Nodi totali del cluster:    1 
    Memoria totale del cluster: 0.98 GB 
    Core totali del cluster:    2 
    Core consentiti cluster:    2 
    Stato cluster:               TRUE 
    IP connessione H2O:         localhost 
    Porta connessione H2O:      54321 
    Proxy connessione H2O:      NA 
    Sicurezza interna H2O:      FALSE 
    Versione di R:              R version 4.2.1 (2022-06-23)

Nuovo dataset: dati sui semi

glimpse(seeds_data)

Osservazioni: 150
Variabili: 8
$ area          <dbl> 15.26, 14.88, 14.29, 13.84 ...
$ perimeter     <dbl> 14.84, 14.57, 14.09, 13.94 ...
$ compactness   <dbl> 0.8710, 0.8811, 0.9050 ...
$ kernel_length <dbl> 5.763, 5.554, 5.291, 5.324 ...
$ kernel_width  <dbl> 3.312, 3.333, 3.337, 3.379 ...
$ asymmetry     <dbl> 2.2210, 1.0180, 2.6990 ...
$ kernel_groove <dbl> 5.220, 4.956, 4.825, 4.805 ...
$ seed_type     <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, ...

seeds_data %>%
  count(seed_type)

# A tibble: 3 x 2
  seed_type     n
      <int> <int>
1         1    50
2         2    50
3         3    50

Preparare i dati per il modeling con H2O

Dati come H2O Frame
```
seeds_data_hf <- as.h2o(seeds_data)
```

Definisci feature e target

y <- "seed_type"
x <- setdiff(colnames(seeds_data_hf), y)

Per classificazione il target deve essere un factor

seeds_data_hf[, y] <- as.factor(seeds_data_hf[, y])

Train, validation e test set

sframe <- h2o.splitFrame(data = seeds_data_hf, 
                         ratios = c(0.7, 0.15),
                         seed = 42)
train <- sframe[[1]]
valid <- sframe[[2]]
test <- sframe[[3]]

summary(train$seed_type, exact_quantiles = TRUE)

seed_type
 1:36     
 2:36     
 3:35

summary(test$seed_type, exact_quantiles = TRUE)

 seed_type
 1:8      
 2:8      
 3:5

Addestrare modelli con H2O

Gradient boosting con h2o.gbm() e h2o.xgboost()
Modelli lineari generalizzati con h2o.glm()
Random forest con h2o.randomForest()
Reti neurali con h2o.deeplearning()

Addestrare modelli con H2O

gbm_model <- h2o.gbm(x = x, y = y, 
                     training_frame = train, 
                     validation_frame = valid)

Dettagli del modello:
=====================

H2OMultinomialModel: gbm
ID modello:  GBM_model_R_1540736041817_1 
Riepilogo modello: 
number_of_trees number_of_internal_trees model_size_in_bytes min_depth 
             50                      150               24877         2 
max_depth mean_depth min_leaves max_leaves mean_leaves
        5    4.72000          3         10     8.26667

Prestazioni del modello

perf <- h2o.performance(gbm_model, test)

h2o.confusionMatrix(perf)

Matrice di confusione: Righe: classe reale; Colonne: classe predetta
       1 2 3  Errore    Tasso
1      7 0 1 0.1250 =  1 / 8
2      0 8 0 0.0000 =  0 / 8
3      0 0 5 0.0000 =  0 / 5
Totali 7 8 6 0.0476 = 1 / 21

h2o.logloss(perf)

0.2351779

Predire nuovi dati

h2o.predict(gbm_model, test)

Passons à la pratique !

Ottimizzazione degli iperparametri in R