Valeurs aberrantes dans les données de crédit

Modélisation du risque de crédit en Python

Michael Crabtree

Data Scientist, Ford Motor Company

Traitement des données

  • Des données préparées entraînent les modèles plus vite
  • Améliorent souvent les performances du modèle

Courbe ROC de trois modèles différents

Modélisation du risque de crédit en Python

Valeurs aberrantes et performance

Causes possibles des valeurs aberrantes :

  • Problèmes de saisie (erreur humaine)
  • Problèmes d’ingestion des données
Modélisation du risque de crédit en Python

Valeurs aberrantes et performance

Causes possibles des valeurs aberrantes :

  • Problèmes de saisie (erreur humaine)
  • Problèmes d’ingestion des données
Variable Coefficient avec valeurs aberrantes Coefficient sans valeurs aberrantes
Taux d’intérêt 0.2 0.01
Ancienneté d’emploi 0.5 0.6
Revenu 0.6 0.75
Modélisation du risque de crédit en Python

Détecter les valeurs aberrantes avec des tableaux croisés

  • Utiliser des tableaux croisés avec fonctions d’agrégation
pd.crosstab(cr_loan['person_home_ownership'], cr_loan['loan_status'],
            values=cr_loan['loan_int_rate'], aggfunc='mean').round(2)

Modélisation du risque de crédit en Python

Détecter visuellement les valeurs aberrantes

Détecter visuellement les valeurs aberrantes

  • Histogrammes
  • Nuages de points

Nuage de points de l’ancienneté d’emploi et du taux d’intérêt du prêt

Modélisation du risque de crédit en Python

Supprimer les valeurs aberrantes

  • Utiliser la méthode .drop() de Pandas
indices = cr_loan[cr_loan['person_emp_length'] >= 60].index
cr_loan.drop(indices, inplace=True)

Nuage de points du taux d’intérêt et de l’ancienneté d’emploi sans valeurs aberrantes

Modélisation du risque de crédit en Python

Passons à la pratique !

Modélisation du risque de crédit en Python

Preparing Video For Download...