Sélection de colonnes pour le risque de crédit

Modélisation du risque de crédit en Python

Michael Crabtree

Data Scientist, Ford Motor Company

Choisir des colonnes spécifiques

  • Nous avons utilisé toutes les colonnes pour prédire
# Sélectionne quelques colonnes spécifiques
X_multi = cr_loan_prep[['loan_int_rate','person_emp_length']]
# Sélectionne toutes les données sauf loan_status
X = cr_loan_prep.drop('loan_status', axis = 1)
  • Comment évaluer l’importance de chaque colonne
    • Régression logistique : coefficients des colonnes
    • Arbres boostés (Gradient Boosted Trees) : ?
Modélisation du risque de crédit en Python

Importance des colonnes

  • Utiliser les méthodes .get_booster() et .get_score()
    • Weight : nombre d’occurrences de la colonne dans tous les arbres
# Entraîner le modèle
clf_gbt.fit(X_train,np.ravel(y_train))
# Afficher l’importance des variables
clf_gbt.get_booster().get_score(importance_type = 'weight')
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}
Modélisation du risque de crédit en Python

Interpréter l’importance des colonnes

# Importance des colonnes avec importance_type = 'weight'
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Arbre de décision avec XGBoost

Modélisation du risque de crédit en Python

Tracer l’importance des colonnes

  • Utiliser la fonction plot_importance()
xgb.plot_importance(clf_gbt, importance_type = 'weight')
{'person_income': 315, 'loan_int_rate': 195, 'loan_percent_income': 146}

Graphique des importances de variables

Modélisation du risque de crédit en Python

Choisir les colonnes d’entraînement

  • L’importance de colonne peut aider à choisir les colonnes pour l’entraînement
  • Des ensembles différents impactent la performance des modèles
Colonnes Importances Précision du modèle Rappel défaut du modèle
loan_int_rate, person_emp_length (100, 100) 0,81 0,67
loan_int_rate, person_emp_length, loan_percent_income (98, 70, 5) 0,84 0,52
Modélisation du risque de crédit en Python

Score F1 pour les modèles

  • Comparer précision et rappel pour divers groupes de colonnes prend du temps
  • Le score F1 est un unique indicateur qui combine précision et rappel

Formule du score F1

  • Apparaît dans le classification_report()

Rapport de classification avec F1 mis en évidence

Modélisation du risque de crédit en Python

Passons à la pratique !

Modélisation du risque de crédit en Python

Preparing Video For Download...