Spaltenauswahl für Kreditausfallrisiko

Kreditrisikomodellierung in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Ausgewählte Spalten wählen

Bisher nutzen wir alle Spalten für Vorhersagen

# Wählt einige spezifische Spalten
X_multi = cr_loan_prep[['loan_int_rate','person_emp_length']]

# Wählt alle Daten außer loan_status
X = cr_loan_prep.drop('loan_status', axis = 1)

So erkennst du die Wichtigkeit jeder Spalte
- Logistische Regression: Spaltenkoeffizienten
- Gradient Boosted Trees: ?

Spaltenwichtigkeiten

Verwende die Methoden .get_booster() und .get_score()
- Weight: Anzahl der Vorkommen der Spalte in allen Bäumen

# Trainiere das Modell
clf_gbt.fit(X_train,np.ravel(y_train))
# Gib die Feature-Wichtigkeiten aus
clf_gbt.get_booster().get_score(importance_type = 'weight')

{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Interpretation der Spaltenwichtigkeit

# Spaltenwichtigkeiten mit importance_type = 'weight'
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Entscheidungsbaum mit XGBoost

Spaltenwichtigkeiten plotten

Nutze die Funktion plot_importance()

xgb.plot_importance(clf_gbt, importance_type = 'weight')
{'person_income': 315, 'loan_int_rate': 195, 'loan_percent_income': 146}

Diagramm der Feature-Wichtigkeiten

Trainingsspalten wählen

Spaltenwichtigkeit hilft bei der Auswahl von Trainingsspalten
Unterschiedliche Sets beeinflussen die Modellleistung

Spalten	Wichtigkeiten	Modellgenauigkeit	Recall für Default
loan_int_rate, person_emp_length	(100, 100)	0,81	0,67
loan_int_rate, person_emp_length, loan_percent_income	(98, 70, 5)	0,84	0,52

F1-Score für Modelle

Genauigkeit und Recall für verschiedene Spaltengruppen zu prüfen kostet Zeit
Der F1-Score fasst Genauigkeit und Recall in einer Kennzahl zusammen

Formel für den F1-Score

Erscheint im classification_report()

Klassifikationsbericht mit hervorgehobenem F1-Score

Lass uns üben!

Kreditrisikomodellierung in Python