Spaltenauswahl für Kreditausfallrisiko

Kreditrisikomodellierung in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Ausgewählte Spalten wählen

  • Bisher nutzen wir alle Spalten für Vorhersagen
# Wählt einige spezifische Spalten
X_multi = cr_loan_prep[['loan_int_rate','person_emp_length']]
# Wählt alle Daten außer loan_status
X = cr_loan_prep.drop('loan_status', axis = 1)
  • So erkennst du die Wichtigkeit jeder Spalte
    • Logistische Regression: Spaltenkoeffizienten
    • Gradient Boosted Trees: ?
Kreditrisikomodellierung in Python

Spaltenwichtigkeiten

  • Verwende die Methoden .get_booster() und .get_score()
    • Weight: Anzahl der Vorkommen der Spalte in allen Bäumen
# Trainiere das Modell
clf_gbt.fit(X_train,np.ravel(y_train))
# Gib die Feature-Wichtigkeiten aus
clf_gbt.get_booster().get_score(importance_type = 'weight')
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}
Kreditrisikomodellierung in Python

Interpretation der Spaltenwichtigkeit

# Spaltenwichtigkeiten mit importance_type = 'weight'
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Entscheidungsbaum mit XGBoost

Kreditrisikomodellierung in Python

Spaltenwichtigkeiten plotten

  • Nutze die Funktion plot_importance()
xgb.plot_importance(clf_gbt, importance_type = 'weight')
{'person_income': 315, 'loan_int_rate': 195, 'loan_percent_income': 146}

Diagramm der Feature-Wichtigkeiten

Kreditrisikomodellierung in Python

Trainingsspalten wählen

  • Spaltenwichtigkeit hilft bei der Auswahl von Trainingsspalten
  • Unterschiedliche Sets beeinflussen die Modellleistung
Spalten Wichtigkeiten Modellgenauigkeit Recall für Default
loan_int_rate, person_emp_length (100, 100) 0,81 0,67
loan_int_rate, person_emp_length, loan_percent_income (98, 70, 5) 0,84 0,52
Kreditrisikomodellierung in Python

F1-Score für Modelle

  • Genauigkeit und Recall für verschiedene Spaltengruppen zu prüfen kostet Zeit
  • Der F1-Score fasst Genauigkeit und Recall in einer Kennzahl zusammen

Formel für den F1-Score

  • Erscheint im classification_report()

Klassifikationsbericht mit hervorgehobenem F1-Score

Kreditrisikomodellierung in Python

Lass uns üben!

Kreditrisikomodellierung in Python

Preparing Video For Download...