Apakah data hilang secara acak?

Menangani Data Hilang di Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Kemungkinan penyebab data hilang

Catatan $-$ (variabel $\rightarrow$ field data atau kolom dalam DataFrame)

  • Nilai hilang acak pada suatu variabel
  • Nilai hilang karena variabel lain
  • Nilai hilang karena missing pada variabel yang sama atau variabel lain
Menangani Data Hilang di Python

Jenis missingness

  1. Missing Completely at Random (MCAR)
  2. Missing at Random (MAR)
  3. Missing Not at Random (MNAR)
Menangani Data Hilang di Python

Missing Completely at Random (MCAR)

Definisi:

"Missingness tidak berhubungan dengan nilai mana pun, teramati atau hilang"

Contoh untuk Missing Completely at Random

Menangani Data Hilang di Python

MCAR - Contoh

msno.matrix(diabetes)

Missing Completely at Random untuk dataset diabetes

Menangani Data Hilang di Python

Missing at Random (MAR)

Definisi:

"Ada hubungan sistematis antara missingness dan data teramati lain, tetapi bukan data yang hilang"

Contoh untuk Missing at Random

Menangani Data Hilang di Python

MAR - Contoh

msno.matrix(diabetes)

Hilang Secara Acak Bersyarat pada dataset diabetes

Menangani Data Hilang di Python

Missing Not at Random (MNAR)

Definisi:

"Ada hubungan antara kehilangannya dan nilainya sendiri, hilang atau tidak"

Contoh untuk Missing Not at Random

Menangani Data Hilang di Python

MNAR - Contoh

  • Pola missing pada diabetes diurutkan menurut Serum_Insulin
sorted = diabetes.sort_values('Serum_Insulin')
msno.matrix(sorted)

Missing Not at Random untuk dataset diabetes

Menangani Data Hilang di Python

Ringkasan

  • Kemungkinan penyebab missing
    • Missing Completely at Random (MCAR),
    • Missing at Random (MAR) atau
    • Missing Not at Random (MNAR)
  • Mendeteksi pola missing dengan mengurutkan variabel
  • Memetakan missing ke MCAR, MAR, & MNAR
Menangani Data Hilang di Python

Ayo berlatih!

Menangani Data Hilang di Python

Preparing Video For Download...