Validation croisée pour les modèles de crédit

Modélisation du risque de crédit en Python

Michael Crabtree

Data Scientist, Ford Motor Company

Principes de la validation croisée

Sert à entraîner et tester le modèle comme s’il était appliqué à de nouvelles données
Segmente les données d’entraînement pour estimer les performances futures
Utilise DMatrix, structure interne optimisée pour XGBoost
L’early stopping arrête la validation si la métrique n’améliore plus après N itérations

Fonctionnement de la validation croisée

Traite des parties des données d’entraînement (appelées folds) et teste sur la partie non utilisée
Test final sur le véritable jeu de test

Schéma de la validation croisée k-folds

¹ https://scikit-learn.org/stable/modules/cross_validation.html

Configurer la validation croisée dans XGBoost

# Set the number of folds
n_folds = 2
# Set early stopping number
early_stop = 5
# Set any specific parameters for cross validation
params = {'objective': 'binary:logistic',
          'seed': 99, 'eval_metric':'auc'}

'binary':'logistic' indique une classification pour loan_status
'eval_metric':'auc' demande à XGBoost d’évaluer les performances via l’AUC

Utiliser la validation croisée dans XGBoost

# Restructure the train data for xgboost
DTrain = xgb.DMatrix(X_train, label = y_train)
# Perform cross validation
xgb.cv(params, DTrain, num_boost_round = 5, nfold=n_folds,
       early_stopping_rounds=early_stop)

DMatrix() crée un objet spécial pour xgboost optimisé pour l’entraînement

Résultats de la validation croisée

Crée un DataFrame des valeurs issues de la validation croisée

Exemple de scores de validation croisée

Score de validation croisée

Utilise la validation croisée et des métriques avec la fonction cross_val_score() de scikit-learn

# Import the module
from sklearn.model_selection import cross_val_score
# Create a gbt model
xg = xgb.XGBClassifier(learning_rate = 0.4, max_depth = 10)
# Use cross valudation and accuracy scores 5 consecutive times
cross_val_score(gbt, X_train, y_train, cv = 5)

array([0.92748092, 0.92575308, 0.93975392, 0.93378608, 0.93336163])

Passons à la pratique !

Modélisation du risque de crédit en Python