Validazione incrociata per modelli di credito

Credit Risk Modeling in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Basi della validazione incrociata

  • Serve per addestrare e testare il modello simulando nuovi dati
  • Divide il training set in parti per stimare le prestazioni future
  • Usa DMatrix, una struttura interna ottimizzata per XGBoost
  • L'early stopping interrompe quando una metrica non migliora dopo N iterazioni
Credit Risk Modeling in Python

Come funziona la validazione incrociata

  • Elabora porzioni del training set (fold) e testa sulla parte non usata
  • Test finale sul vero test set

Diagramma della validazione incrociata k-fold

1 https://scikit-learn.org/stable/modules/cross_validation.html
Credit Risk Modeling in Python

Impostare la validazione incrociata in XGBoost

# Set the number of folds
n_folds = 2
# Set early stopping number
early_stop = 5
# Set any specific parameters for cross validation
params = {'objective': 'binary:logistic',
          'seed': 99, 'eval_metric':'auc'}
  • 'binary':'logistic' specifica la classificazione per loan_status
  • 'eval_metric':'auc' indica a XGBoost di valutare le prestazioni con AUC
Credit Risk Modeling in Python

Usare la validazione incrociata in XGBoost

# Restructure the train data for xgboost
DTrain = xgb.DMatrix(X_train, label = y_train)
# Perform cross validation
xgb.cv(params, DTrain, num_boost_round = 5, nfold=n_folds,
       early_stopping_rounds=early_stop)
  • DMatrix() crea un oggetto speciale per xgboost ottimizzato per il training
Credit Risk Modeling in Python

Risultati della validazione incrociata

  • Crea un data frame con i valori della validazione incrociata

Esempio di punteggi di validazione incrociata

Credit Risk Modeling in Python

Punteggi della validazione incrociata

  • Usa validazione incrociata e metriche con la funzione cross_val_score() di scikit-learn
# Import the module
from sklearn.model_selection import cross_val_score
# Create a gbt model
xg = xgb.XGBClassifier(learning_rate = 0.4, max_depth = 10)
# Use cross valudation and accuracy scores 5 consecutive times
cross_val_score(gbt, X_train, y_train, cv = 5)
array([0.92748092, 0.92575308, 0.93975392, 0.93378608, 0.93336163])
Credit Risk Modeling in Python

Passiamo alla pratica !

Credit Risk Modeling in Python

Preparing Video For Download...