Selezione colonne per il rischio di credito

Credit Risk Modeling in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Scelta di colonne specifiche

Finora abbiamo usato tutte le colonne per le previsioni

# Seleziona alcune colonne specifiche
X_multi = cr_loan_prep[['loan_int_rate','person_emp_length']]

# Seleziona tutti i dati tranne loan_status
X = cr_loan_prep.drop('loan_status', axis = 1)

Come capire l'importanza di ogni colonna
- Regressione logistica: coefficienti delle colonne
- Gradient Boosted Trees: ?

Importanza delle colonne

Usa i metodi .get_booster() e .get_score()
- Weight: quante volte la colonna appare in tutti gli alberi

# Allena il modello
clf_gbt.fit(X_train,np.ravel(y_train))
# Stampa le feature importances
clf_gbt.get_booster().get_score(importance_type = 'weight')

{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Interpretare l'importanza delle colonne

# Importanza colonne da importance_type = 'weight'
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Albero decisionale con XGBoost

Grafico dell'importanza delle colonne

Usa la funzione plot_importance()

xgb.plot_importance(clf_gbt, importance_type = 'weight')
{'person_income': 315, 'loan_int_rate': 195, 'loan_percent_income': 146}

Grafico delle feature importances

Scelta delle colonne di training

L'importanza delle colonne aiuta a scegliere quali usare per il training
Set diversi influenzano le prestazioni dei modelli

Colonne	Importanze	Accuratezza modello	Recall default modello
loan_int_rate, person_emp_length	(100, 100)	0.81	0.67
loan_int_rate, person_emp_length, loan_percent_income	(98, 70, 5)	0.84	0.52

F1 score per i modelli

Valutare accuracy e recall per gruppi di colonne richiede tempo
L'F1 è un'unica metrica che combina accuracy e recall

Formula dell'F1 score

È mostrato nel classification_report()

Classification report con F1 score evidenziato

Ayo berlatih!

Credit Risk Modeling in Python