Selezione colonne per il rischio di credito

Credit Risk Modeling in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Scelta di colonne specifiche

  • Finora abbiamo usato tutte le colonne per le previsioni
# Seleziona alcune colonne specifiche
X_multi = cr_loan_prep[['loan_int_rate','person_emp_length']]
# Seleziona tutti i dati tranne loan_status
X = cr_loan_prep.drop('loan_status', axis = 1)
  • Come capire l'importanza di ogni colonna
    • Regressione logistica: coefficienti delle colonne
    • Gradient Boosted Trees: ?
Credit Risk Modeling in Python

Importanza delle colonne

  • Usa i metodi .get_booster() e .get_score()
    • Weight: quante volte la colonna appare in tutti gli alberi
# Allena il modello
clf_gbt.fit(X_train,np.ravel(y_train))
# Stampa le feature importances
clf_gbt.get_booster().get_score(importance_type = 'weight')
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}
Credit Risk Modeling in Python

Interpretare l'importanza delle colonne

# Importanza colonne da importance_type = 'weight'
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Albero decisionale con XGBoost

Credit Risk Modeling in Python

Grafico dell'importanza delle colonne

  • Usa la funzione plot_importance()
xgb.plot_importance(clf_gbt, importance_type = 'weight')
{'person_income': 315, 'loan_int_rate': 195, 'loan_percent_income': 146}

Grafico delle feature importances

Credit Risk Modeling in Python

Scelta delle colonne di training

  • L'importanza delle colonne aiuta a scegliere quali usare per il training
  • Set diversi influenzano le prestazioni dei modelli
Colonne Importanze Accuratezza modello Recall default modello
loan_int_rate, person_emp_length (100, 100) 0.81 0.67
loan_int_rate, person_emp_length, loan_percent_income (98, 70, 5) 0.84 0.52
Credit Risk Modeling in Python

F1 score per i modelli

  • Valutare accuracy e recall per gruppi di colonne richiede tempo
  • L'F1 è un'unica metrica che combina accuracy e recall

Formula dell'F1 score

  • È mostrato nel classification_report()

Classification report con F1 score evidenziato

Credit Risk Modeling in Python

Ayo berlatih!

Credit Risk Modeling in Python

Preparing Video For Download...