Récapitulatif des bases du machine learning

Optimisation des hyperparamètres en R

Dr. Shirin Elsinghorst

Senior Data Scientist

Machine learning avec caret - séparation des données

# Load caret and set seed
library(caret)
set.seed(42)

# Create partition index
index <- createDataPartition(breast_cancer_data$diagnosis, p = .70, 
                             list = FALSE)

# Subset `breast_cancer_data` with index bc_train_data <- breast_cancer_data[index, ] bc_test_data <- breast_cancer_data[-index, ]
  • Jeu d’entraînement avec assez de puissance.
  • Jeu de test représentatif.
Optimisation des hyperparamètres en R

Entraîner un modèle de machine learning avec caret

  • Configurer la validation croisée :
library(caret)
library(tictoc)
fitControl <- trainControl(method = "repeatedcv", number = 3, repeats = 5)
  • Entraîner un modèle Random Forest :
tic()
set.seed(42)
rf_model <- train(diagnosis ~ ., data = bc_train_data, method = "rf", trControl = fitControl,
                  verbose = FALSE)
toc()
1.431 sec elapsed
Optimisation des hyperparamètres en R

Réglage automatique des hyperparamètres dans caret

Random Forest 

...

Résultats de rééchantillonnage selon les hyperparamètres :

  mtry  Accuracy   Kappa    
   2    0.9006783  0.8015924
   6    0.9126645  0.8253289
  10    0.8999389  0.7999386

Accuracy a été utilisée pour sélectionner le meilleur modèle (valeur la plus élevée).
La valeur finale utilisée pour le modèle est mtry = 6.
Optimisation des hyperparamètres en R

Commençons à modéliser !

Optimisation des hyperparamètres en R

Preparing Video For Download...