Ottimizzazione degli iperparametri in R
Dr. Shirin Elsinghorst
Senior Data Scientist
library(h2o)
h2o.init()
H2O non è ancora in esecuzione, avvio in corso...
java version "1.8.0_351"
Java(TM) SE Runtime Environment (build 1.8.0_351-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.351-b10, mixed mode)
Avvio JVM di H2O e connessione: ... Connessione riuscita!
R è connesso al cluster H2O:
Uptime del cluster H2O: 1 secondi 620 millisecondi
Fuso orario del cluster: UTC
Fuso orario parsing dati: UTC
Versione cluster H2O: 3.38.0.1
Età versione cluster H2O: 2 mesi e 25 giorni
Nome cluster H2O: H2O_started_from_R_repl_chk886
Nodi totali del cluster: 1
Memoria totale del cluster: 0.98 GB
Core totali del cluster: 2
Core consentiti cluster: 2
Stato cluster: TRUE
IP connessione H2O: localhost
Porta connessione H2O: 54321
Proxy connessione H2O: NA
Sicurezza interna H2O: FALSE
Versione di R: R version 4.2.1 (2022-06-23)
glimpse(seeds_data)
Osservazioni: 150
Variabili: 8
$ area <dbl> 15.26, 14.88, 14.29, 13.84 ...
$ perimeter <dbl> 14.84, 14.57, 14.09, 13.94 ...
$ compactness <dbl> 0.8710, 0.8811, 0.9050 ...
$ kernel_length <dbl> 5.763, 5.554, 5.291, 5.324 ...
$ kernel_width <dbl> 3.312, 3.333, 3.337, 3.379 ...
$ asymmetry <dbl> 2.2210, 1.0180, 2.6990 ...
$ kernel_groove <dbl> 5.220, 4.956, 4.825, 4.805 ...
$ seed_type <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
seeds_data %>%
count(seed_type)
# A tibble: 3 x 2
seed_type n
<int> <int>
1 1 50
2 2 50
3 3 50
Dati come H2O Frame
seeds_data_hf <- as.h2o(seeds_data)
Definisci feature e target
y <- "seed_type"
x <- setdiff(colnames(seeds_data_hf), y)
Per classificazione il target deve essere un factor
seeds_data_hf[, y] <- as.factor(seeds_data_hf[, y])
sframe <- h2o.splitFrame(data = seeds_data_hf,
ratios = c(0.7, 0.15),
seed = 42)
train <- sframe[[1]]
valid <- sframe[[2]]
test <- sframe[[3]]
summary(train$seed_type, exact_quantiles = TRUE)
seed_type
1:36
2:36
3:35
summary(test$seed_type, exact_quantiles = TRUE)
seed_type
1:8
2:8
3:5
h2o.gbm() e h2o.xgboost()h2o.glm()h2o.randomForest()h2o.deeplearning()gbm_model <- h2o.gbm(x = x, y = y,
training_frame = train,
validation_frame = valid)
Dettagli del modello:
=====================
H2OMultinomialModel: gbm
ID modello: GBM_model_R_1540736041817_1
Riepilogo modello:
number_of_trees number_of_internal_trees model_size_in_bytes min_depth
50 150 24877 2
max_depth mean_depth min_leaves max_leaves mean_leaves
5 4.72000 3 10 8.26667
perf <- h2o.performance(gbm_model, test)h2o.confusionMatrix(perf)
Matrice di confusione: Righe: classe reale; Colonne: classe predetta
1 2 3 Errore Tasso
1 7 0 1 0.1250 = 1 / 8
2 0 8 0 0.0000 = 0 / 8
3 0 0 5 0.0000 = 0 / 5
Totali 7 8 6 0.0476 = 1 / 21
h2o.logloss(perf)
0.2351779
h2o.predict(gbm_model, test)
Ottimizzazione degli iperparametri in R