Validation croisée pour les modèles de crédit

Modélisation du risque de crédit en Python

Michael Crabtree

Data Scientist, Ford Motor Company

Principes de la validation croisée

  • Sert à entraîner et tester le modèle comme s’il était appliqué à de nouvelles données
  • Segmente les données d’entraînement pour estimer les performances futures
  • Utilise DMatrix, structure interne optimisée pour XGBoost
  • L’early stopping arrête la validation si la métrique n’améliore plus après N itérations
Modélisation du risque de crédit en Python

Fonctionnement de la validation croisée

  • Traite des parties des données d’entraînement (appelées folds) et teste sur la partie non utilisée
  • Test final sur le véritable jeu de test

Schéma de la validation croisée k-folds

1 https://scikit-learn.org/stable/modules/cross_validation.html
Modélisation du risque de crédit en Python

Configurer la validation croisée dans XGBoost

# Set the number of folds
n_folds = 2
# Set early stopping number
early_stop = 5
# Set any specific parameters for cross validation
params = {'objective': 'binary:logistic',
          'seed': 99, 'eval_metric':'auc'}
  • 'binary':'logistic' indique une classification pour loan_status
  • 'eval_metric':'auc' demande à XGBoost d’évaluer les performances via l’AUC
Modélisation du risque de crédit en Python

Utiliser la validation croisée dans XGBoost

# Restructure the train data for xgboost
DTrain = xgb.DMatrix(X_train, label = y_train)
# Perform cross validation
xgb.cv(params, DTrain, num_boost_round = 5, nfold=n_folds,
       early_stopping_rounds=early_stop)
  • DMatrix() crée un objet spécial pour xgboost optimisé pour l’entraînement
Modélisation du risque de crédit en Python

Résultats de la validation croisée

  • Crée un DataFrame des valeurs issues de la validation croisée

Exemple de scores de validation croisée

Modélisation du risque de crédit en Python

Score de validation croisée

  • Utilise la validation croisée et des métriques avec la fonction cross_val_score() de scikit-learn
# Import the module
from sklearn.model_selection import cross_val_score
# Create a gbt model
xg = xgb.XGBClassifier(learning_rate = 0.4, max_depth = 10)
# Use cross valudation and accuracy scores 5 consecutive times
cross_val_score(gbt, X_train, y_train, cv = 5)
array([0.92748092, 0.92575308, 0.93975392, 0.93378608, 0.93336163])
Modélisation du risque de crédit en Python

Passons à la pratique !

Modélisation du risque de crédit en Python

Preparing Video For Download...