Modélisation du risque de crédit en Python
Michael Crabtree
Data Scientist, Ford Motor Company
loan_status| Prêt | État réel du prêt | État prédit | Valeur remboursement | Valeur revente | Gain/Perte |
|---|---|---|---|---|---|
| 1 | 0 | 1 | 1 500 $ | 250 $ | -1 250 $ |
| 2 | 0 | 1 | 1 200 $ | 250 $ | -950 $ |
xgboost, nommé ici xgb.fit() comme le modèle de régression logistique# Créer un modèle de régression logistique
clf_logistic = LogisticRegression()
# Entraîner la régression logistique
clf_logistic.fit(X_train, np.ravel(y_train))
# Créer un modèle d’arbres boosting de gradient
clf_gbt = xgb.XGBClassifier()
# Entraîner l’arbres boosting de gradient
clf_gbt.fit(X_train,np.ravel(y_train))
.predict() et .predict_proba().predict_proba() renvoie une valeur entre 0 et 1.predict() renvoie 1 ou 0 pour loan_status# Prédire les probabilités de défaut
gbt_preds_prob = clf_gbt.predict_proba(X_test)
# Prédire loan_status en 1 ou 0
gbt_preds = clf_gbt.predict(X_test)
# gbt_preds_prob
array([[0.059, 0.940], [0.121, 0.989]])
# gbt_preds
array([1, 1, 0...])
learning_rate : plus petit → étapes plus prudentesmax_depth : profondeur max de chaque arbre, plus grand → plus complexexgb.XGBClassifier(learning_rate = 0.2,
max_depth = 4)
Modélisation du risque de crédit en Python