Outliers em dados de crédito

Modelagem de Risco de Crédito em Python

Michael Crabtree

Data Scientist, Ford Motor Company

Processamento de dados

  • Dados preparados treinam modelos mais rápido
  • Geralmente melhora o desempenho

Curva ROC de três modelos diferentes

Modelagem de Risco de Crédito em Python

Outliers e desempenho

Possíveis causas de outliers:

  • Problemas em sistemas de entrada (erro humano)
  • Problemas em ferramentas de ingestão de dados
Modelagem de Risco de Crédito em Python

Outliers e desempenho

Possíveis causas de outliers:

  • Problemas em sistemas de entrada (erro humano)
  • Problemas em ferramentas de ingestão de dados
Variável Coef. com outliers Coef. sem outliers
Taxa de juros 0.2 0.01
Tempo de emprego 0.5 0.6
Renda 0.6 0.75
Modelagem de Risco de Crédito em Python

Detectando outliers com tabelas cruzadas

  • Use tabelas cruzadas com funções de agregação
pd.crosstab(cr_loan['person_home_ownership'], cr_loan['loan_status'],
            values=cr_loan['loan_int_rate'], aggfunc='mean').round(2)

Modelagem de Risco de Crédito em Python

Detectando outliers visualmente

Detectando outliers visualmente

  • Histogramas
  • Dispersões

Gráfico de dispersão de tempo de emprego e taxa de juros do empréstimo

Modelagem de Risco de Crédito em Python

Removendo outliers

  • Use o método .drop() no Pandas
indices = cr_loan[cr_loan['person_emp_length'] >= 60].index
cr_loan.drop(indices, inplace=True)

Gráfico de dispersão de taxa de juros e tempo de emprego sem outliers

Modelagem de Risco de Crédito em Python

Vamos praticar!

Modelagem de Risco de Crédito em Python

Preparing Video For Download...