Selección de columnas para riesgo de crédito

Modelado del riesgo crediticio en Python

Michael Crabtree

Data Scientist, Ford Motor Company

Elegir columnas específicas

  • Hemos usado todas las columnas para predecir
# Selecciona algunas columnas específicas
X_multi = cr_loan_prep[['loan_int_rate','person_emp_length']]
# Selecciona todo menos loan_status
X = cr_loan_prep.drop('loan_status', axis = 1)
  • Cómo saber la importancia de cada columna
    • Regresión logística: coeficientes de columnas
    • Gradient Boosted Trees: ?
Modelado del riesgo crediticio en Python

Importancia de columnas

  • Usa los métodos .get_booster() y .get_score()
    • Weight: veces que la columna aparece en todos los árboles
# Entrena el modelo
clf_gbt.fit(X_train,np.ravel(y_train))
# Imprime la importancia de las features
clf_gbt.get_booster().get_score(importance_type = 'weight')
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}
Modelado del riesgo crediticio en Python

Interpretar la importancia de columnas

# Importancia de columnas con importance_type = 'weight'
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Árbol de decisión con XGBoost

Modelado del riesgo crediticio en Python

Graficar la importancia de columnas

  • Usa la función plot_importance()
xgb.plot_importance(clf_gbt, importance_type = 'weight')
{'person_income': 315, 'loan_int_rate': 195, 'loan_percent_income': 146}

Gráfico de importancia de features

Modelado del riesgo crediticio en Python

Elegir columnas de entrenamiento

  • La importancia de columnas ayuda a decidir qué usar para entrenar
  • Distintos conjuntos afectan el rendimiento
Columnas Importancias Accuracy del modelo Recall de impagos del modelo
loan_int_rate, person_emp_length (100, 100) 0.81 0.67
loan_int_rate, person_emp_length, loan_percent_income (98, 70, 5) 0.84 0.52
Modelado del riesgo crediticio en Python

F1 para evaluar modelos

  • Evaluar accuracy y recall por grupos de columnas lleva tiempo
  • El F1 es una métrica única que combina accuracy y recall

Fórmula del F1

  • Aparece en classification_report()

Informe de clasificación con F1 resaltado

Modelado del riesgo crediticio en Python

¡Vamos a practicar!

Modelado del riesgo crediticio en Python

Preparing Video For Download...