Kreditrisikomodellierung in Python
Michael Crabtree
Data Scientist, Ford Motor Company
''| Typ fehlender Daten | Mögliche Folge |
|---|---|
| NULL in numerischer Spalte | Fehler |
| NULL in String-Spalte | Fehler |
| Fehlende Daten | Interpretation | Aktion |
|---|---|---|
NULL in loan_status |
Kredit gerade genehmigt | Aus Vorhersagedaten entfernen |
NULL in person_age |
Alter nicht erfasst/angegeben | Durch Median ersetzen |
isnull()sum().any() prüft alle Spaltennull_columns = cr_loan.columns[cr_loan.isnull().any()]
cr_loan[null_columns].isnull().sum()
# Gesamtzahl der Nullwerte pro Spalte
person_home_ownership 25
person_emp_length 895
loan_intent 25
loan_int_rate 3140
cb_person_default_on_file 15
.fillna() und Aggregatfunktionencr_loan['loan_int_rate'].fillna((cr_loan['loan_int_rate'].mean()), inplace = True)
.drop() vollständigindices = cr_loan[cr_loan['person_emp_length'].isnull()].index
cr_loan.drop(indices, inplace=True)
Kreditrisikomodellierung in Python