Valores atípicos en datos de crédito

Modelado del riesgo crediticio en Python

Michael Crabtree

Data Scientist, Ford Motor Company

Procesamiento de datos

  • Preparar los datos acelera el entrenamiento
  • Suele mejorar el rendimiento del modelo

Curva ROC de tres modelos distintos

Modelado del riesgo crediticio en Python

Outliers y rendimiento

Posibles causas de outliers:

  • Problemas en la entrada de datos (error humano)
  • Fallos en las herramientas de ingesta
Modelado del riesgo crediticio en Python

Outliers y rendimiento

Posibles causas de outliers:

  • Problemas en la entrada de datos (error humano)
  • Fallos en las herramientas de ingesta
Variable Coeficiente con outliers Coeficiente sin outliers
Tipo de interés 0.2 0.01
Antigüedad laboral 0.5 0.6
Ingresos 0.6 0.75
Modelado del riesgo crediticio en Python

Detectar outliers con tablas cruzadas

  • Usa tablas cruzadas con funciones de agregación
pd.crosstab(cr_loan['person_home_ownership'], cr_loan['loan_status'],
            values=cr_loan['loan_int_rate'], aggfunc='mean').round(2)

Modelado del riesgo crediticio en Python

Detección visual de outliers

Detectar outliers de forma visual

  • Histogramas
  • Diagramas de dispersión

Diagrama de dispersión de antigüedad laboral y tipo de interés del préstamo

Modelado del riesgo crediticio en Python

Eliminar outliers

  • Usa el método .drop() en Pandas
indices = cr_loan[cr_loan['person_emp_length'] >= 60].index
cr_loan.drop(indices, inplace=True)

Diagrama de dispersión de tipo de interés y antigüedad laboral sin outliers

Modelado del riesgo crediticio en Python

¡Vamos a practicar!

Modelado del riesgo crediticio en Python

Preparing Video For Download...