Mekanisme data hilang

Menangani Data Hilang dengan Imputasi di R

Michal Oleszak

Machine Learning Engineer

Mekanisme Data Hilang: ringkasan

Masalah data hilang diklasifikasikan menjadi tiga kategori. Membedakannya penting karena tiap kategori butuh solusi berbeda.

  • Missing Completely at Random (MCAR).
  • Missing at Random (MAR).
  • Missing not at Random (MNAR).
Menangani Data Hilang dengan Imputasi di R

Missing Completely at Random (MCAR)

Posisi nilai hilang di dataset benar-benar acak, tidak bergantung pada data lain.

Contoh:

Sebuah sensor cuaca mengukur suhu dan mengirimkannya ke basis data. Ada beberapa entri hilang saat sensornya rusak.

Menangani Data Hilang dengan Imputasi di R

Missing at Random (MAR)

Posisi nilai hilang di dataset bergantung pada data lain yang teramati.

Contoh:

Ada beberapa nilai suhu hilang saat sensor dimatikan untuk perawatan. Karena tim perawatan tidak bekerja di akhir pekan, posisi nilai hilang bergantung pada hari dalam minggu.

Menangani Data Hilang dengan Imputasi di R

Missing not at Random (MNAR)

Posisi nilai hilang di dataset bergantung pada nilai yang hilang itu sendiri.

Contoh:

Saat sangat dingin, sensor cuaca membeku dan berhenti bekerja. Jadi, suhu sangat rendah tidak terekam. Dengan demikian, posisi nilai hilang pada variabel suhu bergantung pada nilai variabel itu sendiri.

Menangani Data Hilang dengan Imputasi di R

Menangani mekanisme

Bagaimana jika kita hapus saja observasi tidak lengkap?

  • Jika datanya MCAR, menghapusnya hanya mengurangi informasi.
  • Jika datanya MAR atau MNAR, menghapusnya menimbulkan bias pada model.
  • Dalam kasus ini, nilai hilang perlu di-impute.
  • Banyak metode imputasi mengasumsikan MAR, jadi penting mendeteksinya.
Menangani Data Hilang dengan Imputasi di R

Pengujian statistik

Contoh: uji t untuk beda rata-rata

  1. Buat asumsi (hipotesis nol): rata-ratanya sama.
  2. Hitung statistik uji dari data Anda.
  3. Hitung p-value: seberapa mungkin mendapat statistik uji tersebut jika hipotesis nol benar?

p-value kecil → tolak hipotesis nol → rata-rata berbeda


p-value besar → jangan tolak hipotesis nol → rata-rata sama

Menangani Data Hilang dengan Imputasi di R

Mengujii MAR

Tujuan: menguji apakah persentase nilai hilang pada satu variabel berbeda menurut nilai variabel lain.

Contoh: apakah persentase nilai hilang di PhysActive berbeda untuk laki-laki dan perempuan?

Prosedur pengujian:

  1. Buat variabel dummy yang menandai apakah PhysActive hilang.
  2. Gunakan uji t untuk memeriksa apakah mean dummy ini berbeda untuk laki-laki dan perempuan.
  3. Jika p-value kecil (mis. < 0,05), mean berbeda, jadi datanya MAR.
Menangani Data Hilang dengan Imputasi di R

Pengujian secara praktik

nhanes <- nhanes %>% 
  mutate(missing_phys_active = is.na(PhysActive))
missing_phys_active_male <- nhanes %>% 
  filter(Gender == "male") %>% 
  pull(missing_phys_active)

missing_phys_active_female <- nhanes %>% 
  filter(Gender == "female") %>% 
  pull(missing_phys_active)
Menangani Data Hilang dengan Imputasi di R

Menafsirkan hasil uji

t.test(missing_phys_active_female, missing_phys_active_male)
    Welch Two Sample t-test

data:  missing_phys_active_female and missing_phys_active_male
t = -1.7192, df = 781.18, p-value = 0.08597
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.044414688  0.002940477
sample estimates:
 mean of x  mean of y 
0.02083333 0.04157044
Menangani Data Hilang dengan Imputasi di R

Ayo berlatih mengenali mekanisme data hilang!

Menangani Data Hilang dengan Imputasi di R

Preparing Video For Download...