Menangani Data Hilang dengan Imputasi di R
Michal Oleszak
Machine Learning Engineer
Masalah data hilang diklasifikasikan menjadi tiga kategori. Membedakannya penting karena tiap kategori butuh solusi berbeda.
Posisi nilai hilang di dataset benar-benar acak, tidak bergantung pada data lain.
Contoh:
Sebuah sensor cuaca mengukur suhu dan mengirimkannya ke basis data. Ada beberapa entri hilang saat sensornya rusak.
Posisi nilai hilang di dataset bergantung pada data lain yang teramati.
Contoh:
Ada beberapa nilai suhu hilang saat sensor dimatikan untuk perawatan. Karena tim perawatan tidak bekerja di akhir pekan, posisi nilai hilang bergantung pada hari dalam minggu.
Posisi nilai hilang di dataset bergantung pada nilai yang hilang itu sendiri.
Contoh:
Saat sangat dingin, sensor cuaca membeku dan berhenti bekerja. Jadi, suhu sangat rendah tidak terekam. Dengan demikian, posisi nilai hilang pada variabel suhu bergantung pada nilai variabel itu sendiri.
Bagaimana jika kita hapus saja observasi tidak lengkap?
Contoh: uji t untuk beda rata-rata
p-value kecil → tolak hipotesis nol → rata-rata berbeda
p-value besar → jangan tolak hipotesis nol → rata-rata sama
Tujuan: menguji apakah persentase nilai hilang pada satu variabel berbeda menurut nilai variabel lain.
Contoh: apakah persentase nilai hilang di PhysActive berbeda untuk laki-laki dan perempuan?
Prosedur pengujian:
PhysActive hilang.nhanes <- nhanes %>%
mutate(missing_phys_active = is.na(PhysActive))
missing_phys_active_male <- nhanes %>%
filter(Gender == "male") %>%
pull(missing_phys_active)
missing_phys_active_female <- nhanes %>%
filter(Gender == "female") %>%
pull(missing_phys_active)
t.test(missing_phys_active_female, missing_phys_active_male)
Welch Two Sample t-test
data: missing_phys_active_female and missing_phys_active_male
t = -1.7192, df = 781.18, p-value = 0.08597
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.044414688 0.002940477
sample estimates:
mean of x mean of y
0.02083333 0.04157044
Menangani Data Hilang dengan Imputasi di R