Risiko data hilang pada data pinjaman

Pemodelan Risiko Kredit dengan Python

Michael Crabtree

Data Scientist, Ford Motor Company

Apa itu data hilang?

  • NULL pada baris alih-alih nilai sebenarnya
  • String kosong ''
  • Bukan baris yang sepenuhnya kosong
  • Dapat muncul di kolom mana pun

Contoh data frame dengan panjang masa kerja kosong

Pemodelan Risiko Kredit dengan Python

Kemiripan dengan outlier

  • Menurunkan kinerja model machine learning
  • Dapat membiasakan model secara tak terduga
  • Dapat menyebabkan error pada beberapa model
Pemodelan Risiko Kredit dengan Python

Kemiripan dengan outlier

  • Menurunkan kinerja model machine learning
  • Dapat membiasakan model secara tak terduga
  • Dapat menyebabkan error pada beberapa model
Jenis Data Hilang Hasil Kemungkinan
NULL di kolom numerik Error
NULL di kolom string Error
Pemodelan Risiko Kredit dengan Python

Cara menangani data hilang

  • Umumnya ada tiga cara menangani data hilang
    • Ganti nilai pada lokasi yang hilang
    • Hapus baris yang berisi data hilang
    • Biarkan baris dengan data hilang apa adanya
  • Pemahaman data menentukan tindakan
Pemodelan Risiko Kredit dengan Python

Cara menangani data hilang

  • Umumnya ada tiga cara menangani data hilang
    • Ganti nilai pada lokasi yang hilang
    • Hapus baris yang berisi data hilang
    • Biarkan baris dengan data hilang apa adanya
  • Pemahaman data menentukan tindakan
Data Hilang Interpretasi Aksi
NULL di loan_status Pinjaman baru disetujui Hapus dari data prediksi
NULL di person_age Usia tidak tercatat/diungkapkan Ganti dengan median
Pemodelan Risiko Kredit dengan Python

Menemukan data hilang

  • Nilai null mudah ditemukan dengan fungsi isnull()
  • Jumlah null dapat dihitung dengan sum()
  • Metode .any() memeriksa semua kolom
null_columns = cr_loan.columns[cr_loan.isnull().any()]
cr_loan[null_columns].isnull().sum()
# Total nilai null per kolom
person_home_ownership          25
person_emp_length             895
loan_intent                    25
loan_int_rate                3140
cb_person_default_on_file      15
Pemodelan Risiko Kredit dengan Python

Mengganti data hilang

  • Ganti data hilang memakai .fillna() dengan fungsi atau metode agregat
cr_loan['loan_int_rate'].fillna((cr_loan['loan_int_rate'].mean()), inplace = True)

Contoh suku bunga hilang diganti dengan rata-rata

Pemodelan Risiko Kredit dengan Python

Menghapus data hilang

  • Gunakan indeks untuk mengidentifikasi rekaman, sama seperti outlier
  • Hapus rekaman dengan .drop()
indices = cr_loan[cr_loan['person_emp_length'].isnull()].index
cr_loan.drop(indices, inplace=True)
Pemodelan Risiko Kredit dengan Python

Ayo berlatih!

Pemodelan Risiko Kredit dengan Python

Preparing Video For Download...