Prevedere la probabilità di default

Credit Risk Modeling in Python

Michael Crabtree

Data Scientist, Ford Motor Company

Coefficienti della regressione logistica

# Intercetta del modello
array([-3.30582292e-10])
# Coefficienti per ['loan_int_rate','person_emp_length','person_income']
array([[ 1.28517496e-09, -2.27622202e-09, -2.17211991e-05]])

Formula per la probabilità di default con regressione logistica

# Calcolo della probabilità di default
int_coef_sum = -3.3e-10 +
    (1.29e-09 * loan_int_rate) + (-2.28e-09 * person_emp_length) + (-2.17e-05 * person_income)
prob_default = 1 / (1 + np.exp(-int_coef_sum))
prob_nondefault = 1 - (1 / (1 + np.exp(-int_coef_sum)))

Interpretare i coefficienti

# Intercetta
intercept = -1.02
# Coefficiente per anzianità lavorativa
person_emp_length_coef = -0.056

Per ogni +1 anno di person_emp_length, la probabilità di default diminuisce

Interpretare i coefficienti

# Intercetta
intercept = -1.02
# Coefficiente per anzianità lavorativa
person_emp_length_coef = -0.056

Per ogni +1 anno di person_emp_length, la probabilità di default diminuisce

intercept	person_emp_length	value * coef	probability of default
`-1.02`	10	(10 * `-0.06`)	.17
`-1.02`	11	(11 * `-0.06`)	.16
`-1.02`	12	(12 * `-0.06`)	.15

Uso di colonne non numeriche

Numeriche: loan_int_rate, person_emp_length, person_income
Non numeriche:
```
cr_loan_clean['loan_intent']
```

EDUCATION            
MEDICAL              
VENTURE              
PERSONAL             
DEBTCONSOLIDATION   
HOMEIMPROVEMENT

Causano errori nei modelli ML in Python se non preprocessate

One-hot encoding

Rappresenta una stringa con un numero

Esempio di loan intent nei dati

One-hot encoding

Rappresenta una stringa con un numero
0 o 1 in una nuova colonna column_VALUE

Esempio di one-hot encoding della colonna loan intent

Get dummies

Usa get_dummies() in pandas

# Separa le colonne numeriche
cred_num = cr_loan.select_dtypes(exclude=['object'])
# Separa le colonne non numeriche
cred_cat = cr_loan.select_dtypes(include=['object'])
# One-hot encoding solo per le non numeriche
cred_cat_onehot = pd.get_dummies(cred_cat)
# Unisci numeriche e one-hot
cr_loan = pd.concat([cred_num, cred_cat_onehot], axis=1)

Prevedere il futuro, probabilmente

Usa il metodo .predict_proba() di scikit-learn

# Allena il modello
clf_logistic.fit(X_train, np.ravel(y_train))
# Predici col modello
clf_logistic.predict_proba(X_test)

Crea un array di probabilità di default

# Probabilità: [[no default, default]]
array([[0.55, 0.45]])

Ayo berlatih!

Credit Risk Modeling in Python