Modélisation du risque de crédit en Python
Michael Crabtree
Data Scientist, Ford Motor Company
''| Type de données manquantes | Résultat possible |
|---|---|
| NULL dans une colonne numérique | Erreur |
| NULL dans une colonne texte | Erreur |
| Données manquantes | Interprétation | Action |
|---|---|---|
NULL dans loan_status |
Prêt récemment approuvé | Retirer des données de prédiction |
NULL dans person_age |
Âge non enregistré ou non divulgué | Remplacer par la médiane |
isnull()sum().any() vérifie toutes les colonnesnull_columns = cr_loan.columns[cr_loan.isnull().any()]
cr_loan[null_columns].isnull().sum()
# Nombre total de valeurs nulles par colonne
person_home_ownership 25
person_emp_length 895
loan_intent 25
loan_int_rate 3140
cb_person_default_on_file 15
.fillna() et des fonctions/méthodes d’agrégationcr_loan['loan_int_rate'].fillna((cr_loan['loan_int_rate'].mean()), inplace = True)
.drop()indices = cr_loan[cr_loan['person_emp_length'].isnull()].index
cr_loan.drop(indices, inplace=True)
Modélisation du risque de crédit en Python