Kolomselectie voor kredietrisico

Kredietrisicomodellering in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Specifieke kolommen kiezen

  • We hebben alle kolommen gebruikt voor voorspellingen
# Selecteert enkele specifieke kolommen
X_multi = cr_loan_prep[['loan_int_rate','person_emp_length']]
# Selecteert alle data behalve loan_status
X = cr_loan_prep.drop('loan_status', axis = 1)
  • Hoe je ziet hoe belangrijk elke kolom is
    • Logistische regressie: kolomcoëfficiënten
    • Gradient boosted trees: ?
Kredietrisicomodellering in Python

Kolombelangrijkheden

  • Gebruik de .get_booster()- en .get_score()-methoden
    • Weight: hoe vaak de kolom voorkomt in alle bomen
# Train het model
clf_gbt.fit(X_train,np.ravel(y_train))
# Print de feature-importances
clf_gbt.get_booster().get_score(importance_type = 'weight')
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}
Kredietrisicomodellering in Python

Interpretatie van kolombelangrijkheid

# Kolombelangrijkheden met importance_type = 'weight'
{'person_home_ownership_RENT': 1, 'person_home_ownership_OWN': 2}

Beslisboom met XGBoost

Kredietrisicomodellering in Python

Kolombelangrijkheid plotten

  • Gebruik de functie plot_importance()
xgb.plot_importance(clf_gbt, importance_type = 'weight')
{'person_income': 315, 'loan_int_rate': 195, 'loan_percent_income': 146}

Plot van feature-importances

Kredietrisicomodellering in Python

Trainingskolommen kiezen

  • Kolombelangrijkheid helpt soms bij de keuze van trainingskolommen
  • Verschillende sets beïnvloeden de modelprestatie
Kolommen Belangrijkheden Modelnauwkeurigheid Recall voor defaults
loan_int_rate, person_emp_length (100, 100) 0.81 0.67
loan_int_rate, person_emp_length, loan_percent_income (98, 70, 5) 0.84 0.52
Kredietrisicomodellering in Python

F1-scores voor modellen

  • Nadenken over nauwkeurigheid en recall per kolomgroep kost veel tijd
  • F1-score is één metriek voor zowel nauwkeurigheid als recall

Formule voor F1-score

  • Verschijnt in de classification_report()

Classification report met F1-score gemarkeerd

Kredietrisicomodellering in Python

Laten we oefenen!

Kredietrisicomodellering in Python

Preparing Video For Download...