Ausreißer in Kreditdaten

Kreditrisikomodellierung in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Datenverarbeitung

  • Aufbereitete Daten trainieren Modelle schneller
  • Verbessert oft die Modellleistung

ROC-Diagramm von drei verschiedenen Modellen

Kreditrisikomodellierung in Python

Ausreißer und Leistung

Mögliche Ursachen für Ausreißer:

  • Probleme bei der Dateneingabe (menschlicher Fehler)
  • Probleme mit Dateningestion-Tools
Kreditrisikomodellierung in Python

Ausreißer und Leistung

Mögliche Ursachen für Ausreißer:

  • Probleme bei der Dateneingabe (menschlicher Fehler)
  • Probleme mit Dateningestion-Tools
Feature Koeffizient mit Ausreißern Koeffizient ohne Ausreißer
Zins 0.2 0.01
Beschäftigungsdauer 0.5 0.6
Einkommen 0.6 0.75
Kreditrisikomodellierung in Python

Ausreißer mit Kreuztabellen erkennen

  • Kreuztabellen mit Aggregatfunktionen nutzen
pd.crosstab(cr_loan['person_home_ownership'], cr_loan['loan_status'],
            values=cr_loan['loan_int_rate'], aggfunc='mean').round(2)

Kreditrisikomodellierung in Python

Ausreißer visuell erkennen

Ausreißer visuell erkennen

  • Histogramme
  • Streudiagramme

Streudiagramm von Beschäftigungsdauer und Kreditzins

Kreditrisikomodellierung in Python

Ausreißer entfernen

  • In Pandas die Methode .drop() nutzen
indices = cr_loan[cr_loan['person_emp_length'] >= 60].index
cr_loan.drop(indices, inplace=True)

Streudiagramm von Zins und Beschäftigungsdauer ohne Ausreißer

Kreditrisikomodellierung in Python

Lass uns üben!

Kreditrisikomodellierung in Python

Preparing Video For Download...