Uitschieters in kredietdata

Kredietrisicomodellering in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Dataverwerking

  • Voorbewerkte data traint modellen sneller
  • Verbetert vaak de modelprestatie

ROC-grafiek van drie verschillende modellen

Kredietrisicomodellering in Python

Uitschieters en prestaties

Mogelijke oorzaken van uitschieters:

  • Problemen met gegevensinvoer (menselijke fout)
  • Issues met data-ingestietools
Kredietrisicomodellering in Python

Uitschieters en prestaties

Mogelijke oorzaken van uitschieters:

  • Problemen met gegevensinvoer (menselijke fout)
  • Issues met data-ingestietools
Kenmerk Coëfficiënt met uitschieters Coëfficiënt zonder uitschieters
Rente 0.2 0.01
Dienstjaren 0.5 0.6
Inkomen 0.6 0.75
Kredietrisicomodellering in Python

Uitschieters detecteren met kruistabellen

  • Gebruik kruistabellen met aggregatiefuncties
pd.crosstab(cr_loan['person_home_ownership'], cr_loan['loan_status'],
            values=cr_loan['loan_int_rate'], aggfunc='mean').round(2)

Kredietrisicomodellering in Python

Uitschieters visueel detecteren

Uitschieters visueel detecteren

  • Histogrammen
  • Spreidingsdiagrammen

Spreidingsdiagram van dienstjaren en leenrente

Kredietrisicomodellering in Python

Uitschieters verwijderen

  • Gebruik de .drop()-methode in Pandas
indices = cr_loan[cr_loan['person_emp_length'] >= 60].index
cr_loan.drop(indices, inplace=True)

Spreidingsdiagram van rente en dienstjaren zonder uitschieters

Kredietrisicomodellering in Python

Laten we oefenen!

Kredietrisicomodellering in Python

Preparing Video For Download...