Pencilan pada Data Kredit

Pemodelan Risiko Kredit dengan Python

Michael Crabtree

Data Scientist, Ford Motor Company

Pemrosesan data

  • Data yang dipersiapkan mempercepat pelatihan model
  • Sering meningkatkan kinerja model

Kurva ROC untuk tiga model berbeda

Pemodelan Risiko Kredit dengan Python

Pencilan dan kinerja

Kemungkinan penyebab pencilan:

  • Masalah pada sistem entri data (kesalahan manusia)
  • Masalah pada alat ingest data
Pemodelan Risiko Kredit dengan Python

Pencilan dan kinerja

Kemungkinan penyebab pencilan:

  • Masalah pada sistem entri data (kesalahan manusia)
  • Masalah pada alat ingest data
Fitur Koefisien dengan Pencilan Koefisien tanpa Pencilan
Suku Bunga 0.2 0.01
Lama Kerja 0.5 0.6
Pendapatan 0.6 0.75
Pemodelan Risiko Kredit dengan Python

Deteksi pencilan dengan tabel silang

  • Gunakan tabel silang dengan fungsi agregat
pd.crosstab(cr_loan['person_home_ownership'], cr_loan['loan_status'],
            values=cr_loan['loan_int_rate'], aggfunc='mean').round(2)

Pemodelan Risiko Kredit dengan Python

Deteksi pencilan secara visual

Deteksi pencilan secara visual

  • Histogram
  • Scatter plot

Scatter plot lama kerja dan suku bunga pinjaman

Pemodelan Risiko Kredit dengan Python

Menghapus pencilan

  • Gunakan metode .drop() di Pandas
indices = cr_loan[cr_loan['person_emp_length'] >= 60].index
cr_loan.drop(indices, inplace=True)

Scatter plot suku bunga vs lama kerja tanpa pencilan

Pemodelan Risiko Kredit dengan Python

Ayo berlatih!

Pemodelan Risiko Kredit dengan Python

Preparing Video For Download...