Modelagem de Risco de Crédito em Python
Michael Crabtree
Data Scientist, Ford Motor Company
loan_status são as classes01y_train['loan_status'].value_counts()
| loan_status | Contagem no treino | % do total |
|---|---|---|
| 0 | 13,798 | 78% |
| 1 | 3,877 | 22% |
xgboost usam log-loss como função de perda| Status real do empréstimo | Prob. prevista | Log-loss |
|---|---|---|
| 1 | 0.1 | 2.3 |
| 0 | 0.9 | 2.3 |
| Pessoa | Valor do empréstimo | Lucro potencial | Status previsto | Status real | Perdas |
|---|---|---|---|---|---|
| A | $1.000 | $10 | Default | Não inadimplente | -$10 |
| B | $1.000 | $10 | Não inadimplente | Default | -$1.000 |
| Método | Prós | Contras |
|---|---|---|
| Coletar mais dados | Aumenta o nº de defaults | % de defaults pode não mudar |
| Penalizar modelos | Aumenta o recall de defaults | Exige mais ajuste e manutenção |
| Amostrar diferente | Ajuste menos técnico | Menos defaults nos dados |
loan_status real# Concat the training sets
X_y_train = pd.concat([X_train.reset_index(drop = True),
y_train.reset_index(drop = True)], axis = 1)
# Get the counts of defaults and non-defaults
count_nondefault, count_default = X_y_train['loan_status'].value_counts()
# Separate nondefaults and defaults
nondefaults = X_y_train[X_y_train['loan_status'] == 0]
defaults = X_y_train[X_y_train['loan_status'] == 1]
# Undersample the non-defaults using sample() in pandas
nondefaults_under = nondefaults.sample(count_default)
# Concat the undersampled non-defaults with the defaults
X_y_train_under = pd.concat([nondefaults_under.reset_index(drop = True),
defaults.reset_index(drop = True)], axis=0)
Modelagem de Risco de Crédito em Python