Seleção de colunas para risco de crédito

Modelagem de Risco de Crédito em Python

Michael Crabtree

Data Scientist, Ford Motor Company

Escolhendo colunas específicas

  • Temos usado todas as colunas nas previsões
# Seleciona algumas colunas específicas
X_multi = cr_loan_prep[['loan_int_rate','person_emp_length']]
# Seleciona todos os dados exceto loan_status
X = cr_loan_prep.drop('loan_status', axis = 1)
  • Como ver a importância de cada coluna
    • Regressão Logística: coeficientes
    • Árvores Gradient Boosting: ?
Modelagem de Risco de Crédito em Python

Importância das colunas

  • Use os métodos .get_booster() e .get_score()
    • Weight: número de vezes que a coluna aparece em todas as árvores
# Treina o modelo
clf_gbt.fit(X_train,np.ravel(y_train))
# Mostra as importâncias
clf_gbt.get_booster().get_score(importance_type = 'weight')
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}
Modelagem de Risco de Crédito em Python

Interpretação da importância

# Importâncias com importance_type = 'weight'
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Árvore de decisão usando XGBoost

Modelagem de Risco de Crédito em Python

Plotando importâncias das colunas

  • Use a função plot_importance()
xgb.plot_importance(clf_gbt, importance_type = 'weight')
{'person_income': 315, 'loan_int_rate': 195, 'loan_percent_income': 146}

Gráfico de importâncias de features

Modelagem de Risco de Crédito em Python

Escolhendo colunas de treino

  • A importância pode guiar quais colunas usar no treino
  • Conjuntos diferentes afetam o desempenho
Colunas Importâncias Acurácia do modelo Recall de default do modelo
loan_int_rate, person_emp_length (100, 100) 0.81 0.67
loan_int_rate, person_emp_length, loan_percent_income (98, 70, 5) 0.84 0.52
Modelagem de Risco de Crédito em Python

Pontuação F1 para modelos

  • Comparar acurácia e recall por grupos de colunas leva tempo
  • F1 é uma métrica única que combina acurácia e recall

Fórmula do F1

  • Aparece no classification_report()

Relatório de classificação com F1 destacado

Modelagem de Risco de Crédito em Python

Vamos praticar!

Modelagem de Risco de Crédito em Python

Preparing Video For Download...