H2O ile otomatik makine öğrenimi

R'de Hiperparametre Ayarlama

Dr. Shirin Elsinghorst

Senior Data Scientist

Otomatik Makine Öğrenimi (AutoML)

  • Algoritmaların otomatik ayarı, hiperparametrelerin yanı sıra

 

  • AutoML, model ayarını ve optimizasyonu çok daha hızlı ve kolay yapar

 

  • AutoML için yalnızca bir veri kümesi, bir hedef değişken ve eğitim için bir süre ya da model sayısı sınırı gerekir
R'de Hiperparametre Ayarlama

H2O'da AutoML

AutoML şunları karşılaştırır:

  • Genelleştirilmiş Doğrusal Model (GLM)
  • (Dağıtık) Rastgele Orman (DRF)
  • Aşırı Rastgeleleştirilmiş Ağaçlar (XRT)
  • Aşırı Gradyan Artırma (XGBoost)
  • Gradyan Artırma Makineleri (GBM)
  • Derin Öğrenme (tam bağlantılı çok katmanlı yapay sinir ağı)
  • Yığınlanmış Topluluklar (tüm modeller ve ailelerin en iyileri)
R'de Hiperparametre Ayarlama

GBM Hiperparametreleri

  • histogram_type
  • ntrees
  • max_depth
  • min_rows
  • learn_rate
  • sample_rate
  • col_sample_rate
  • col_sample_rate_per_tree
  • min_split_improvement

Derin Öğrenme Hiperparametreleri

  • epochs
  • adaptivate_rate
  • activation
  • rho
  • epsilon
  • input_dropout_ratio
  • hidden
  • hidden_dropout_ratios
R'de Hiperparametre Ayarlama
# Using h2o.automl function
automl_model <- h2o.automl(x = x, y = y,
                           training_frame = train,
                           validation_frame = valid,
                           max_runtime_secs = 60,
                           sort_metric = "logloss",
                           seed = 42)
  • tüm modellerin seçilen metrikle (burada "logloss") sıralandığı bir liderlik tablosu döndürür
Slot "leader":
Model Details:
==============

H2OMultinomialModel: gbm
Model Summary: 
 number_of_trees number_of_internal_trees model_size_in_bytes min_depth
             189                      567               65728         1
 max_depth mean_depth min_leaves max_leaves mean_leaves
         5    2.96649          2          6     4.20988
R'de Hiperparametre Ayarlama

AutoML liderlik tablosunu görüntüleme

lb <- automl_model@leaderboard
                                    model_id mean_per_class_error
1  GBM_grid_0_AutoML_20181029_144443_model_6           0.01851852
2 GBM_grid_0_AutoML_20181029_144443_model_30           0.02777778
3 GBM_grid_0_AutoML_20181029_144443_model_18           0.02777778
4  GBM_grid_0_AutoML_20181029_144443_model_9           0.03703704
  • Varsayılan olarak, liderlik tablosu 5 katlı çapraz doğrulama ile hesaplanır.

https://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html

R'de Hiperparametre Ayarlama

AutoML liderlik tablosundan modelleri çıkarma

# List all models by model id
model_ids <- as.data.frame(lb)$model_id
 [1] "GBM_grid_0_AutoML_20181029_144443_model_6"       
 [3] "GBM_grid_0_AutoML_20181029_144443_model_18"         
[19] "XRT_0_AutoML_20181029_144443"
[20] "DRF_0_AutoML_20181029_144443"            
[24] "DeepLearning_0_AutoML_20181029_144443"                        
[41] "StackedEnsemble_BestOfFamily_0_AutoML_20181029_144443" 
[42] "StackedEnsemble_AllModels_0_AutoML_20181029_144443" 
# Get the best model
aml_leader <- automl_model@leader
  • aml_leader yine standart bir H2O model nesnesidir ve öyle kullanılabilir.
R'de Hiperparametre Ayarlama

Son alıştırma turunuza hazırlanın!

R'de Hiperparametre Ayarlama

Preparing Video For Download...