Predecir la probabilidad de impago

Modelado del riesgo crediticio en Python

Michael Crabtree

Data Scientist, Ford Motor Company

Coeficientes de regresión logística

# Model Intercept
array([-3.30582292e-10])
# Coefficients for ['loan_int_rate','person_emp_length','person_income']
array([[ 1.28517496e-09, -2.27622202e-09, -2.17211991e-05]])

Fórmula de probabilidad de impago con regresión logística

# Calculating probability of default
int_coef_sum = -3.3e-10 +
    (1.29e-09 * loan_int_rate) + (-2.28e-09 * person_emp_length) + (-2.17e-05 * person_income)
prob_default = 1 / (1 + np.exp(-int_coef_sum))
prob_nondefault = 1 - (1 / (1 + np.exp(-int_coef_sum)))
Modelado del riesgo crediticio en Python

Interpretar coeficientes

# Intercept
intercept = -1.02
# Coefficient for employment length
person_emp_length_coef = -0.056
  • Por cada 1 año extra en person_emp_length, es menos probable que impague
Modelado del riesgo crediticio en Python

Interpretar coeficientes

# Intercept
intercept = -1.02
# Coefficient for employment length
person_emp_length_coef = -0.056
  • Por cada 1 año extra en person_emp_length, es menos probable que impague
intercept person_emp_length value * coef probability of default
-1.02 10 (10 * -0.06) .17
-1.02 11 (11 * -0.06) .16
-1.02 12 (12 * -0.06) .15
Modelado del riesgo crediticio en Python

Uso de columnas no numéricas

  • Numéricas: loan_int_rate, person_emp_length, person_income

  • No numéricas:

    cr_loan_clean['loan_intent']
    
EDUCATION            
MEDICAL              
VENTURE              
PERSONAL             
DEBTCONSOLIDATION   
HOMEIMPROVEMENT
  • Causarán errores con modelos de ML en Python si no se procesan
Modelado del riesgo crediticio en Python

One-hot encoding

  • Representa una cadena con un número

Ejemplo de loan intent en los datos

Modelado del riesgo crediticio en Python

One-hot encoding

  • Representa una cadena con un número
  • 0 o 1 en una nueva columna column_VALUE

Ejemplo de one-hot encoding de la columna loan intent

Modelado del riesgo crediticio en Python

Get dummies

  • Usa get_dummies() de pandas
# Separate the numeric columns
cred_num = cr_loan.select_dtypes(exclude=['object'])
# Separate non-numeric columns
cred_cat = cr_loan.select_dtypes(include=['object'])
# One-hot encode the non-numeric columns only
cred_cat_onehot = pd.get_dummies(cred_cat)
# Union the numeric columns with the one-hot encoded columns
cr_loan = pd.concat([cred_num, cred_cat_onehot], axis=1)
Modelado del riesgo crediticio en Python

Predecir el futuro, probablemente

  • Usa el método .predict_proba() de scikit-learn
# Train the model
clf_logistic.fit(X_train, np.ravel(y_train))
# Predict using the model
clf_logistic.predict_proba(X_test)
  • Crea un array con probabilidades de impago
# Probabilities: [[non-default, default]]
array([[0.55, 0.45]])
Modelado del riesgo crediticio en Python

¡Vamos a practicar!

Modelado del riesgo crediticio en Python

Preparing Video For Download...