Outlier nei dati di credito

Credit Risk Modeling in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Elaborazione dei dati

  • Dati preparati permettono di addestrare i modelli più velocemente
  • Spesso migliorano le prestazioni del modello

Curva ROC di tre modelli

Credit Risk Modeling in Python

Outlier e prestazioni

Possibili cause degli outlier:

  • Problemi nei sistemi di inserimento dati (errore umano)
  • Problemi negli strumenti di ingestione dati
Credit Risk Modeling in Python

Outlier e prestazioni

Possibili cause degli outlier:

  • Problemi nei sistemi di inserimento dati (errore umano)
  • Problemi negli strumenti di ingestione dati
Variabile Coefficiente con outlier Coefficiente senza outlier
Tasso d’interesse 0.2 0.01
Anzianità lavorativa 0.5 0.6
Reddito 0.6 0.75
Credit Risk Modeling in Python

Rilevare outlier con tabelle incrociate

  • Usa tabelle incrociate con funzioni di aggregazione
pd.crosstab(cr_loan['person_home_ownership'], cr_loan['loan_status'],
            values=cr_loan['loan_int_rate'], aggfunc='mean').round(2)

Credit Risk Modeling in Python

Rilevare outlier visivamente

Rilevare outlier visivamente

  • Istogrammi
  • Scatter plot

Grafico a dispersione di anzianità lavorativa e tasso d’interesse del prestito

Credit Risk Modeling in Python

Rimuovere outlier

  • Usa il metodo .drop() in Pandas
indices = cr_loan[cr_loan['person_emp_length'] >= 60].index
cr_loan.drop(indices, inplace=True)

Grafico a dispersione di tasso d’interesse e anzianità lavorativa senza outlier

Credit Risk Modeling in Python

Passiamo alla pratica !

Credit Risk Modeling in Python

Preparing Video For Download...