Data hilang: apa yang bisa salah

Menangani Data Hilang dengan Imputasi di R

Michal Oleszak

Machine Learning Engineer

Apa yang akan Anda pelajari

Setelah menyelesaikan kursus ini, Anda akan dapat:

  • Memahami mengapa data hilang memerlukan perlakuan khusus.
  • Menggunakan uji statistik dan visualisasi untuk mendeteksi pola pada data hilang.
  • Melakukan imputasi dengan berbagai model statistik dan pembelajaran mesin.
  • Memasukkan ketidakpastian dari imputasi ke dalam analisis dan prediksi agar lebih andal.
Menangani Data Hilang dengan Imputasi di R

Prasyarat

Kursus ini mengasumsikan Anda sudah nyaman dengan topik berikut:

  • Manipulasi data dasar dengan dplyr dan operator pipa (%>%).
  • Model regresi linear dan logistik (lm(), glm()).
  • Konsep probabilitas dasar: peubah acak, sebaran.
Menangani Data Hilang dengan Imputasi di R

Pengantar data hilang

Jelas cara terbaik menangani data hilang adalah tidak memilikinya.

Sayangnya, data hilang ada di mana-mana:

  • Nonrespons dalam survei.
  • Masalah teknis pada peralatan pengumpul data.
  • Menggabungkan data dari berbagai sumber.
  • ...

Kita harus waspada terhadap data hilang.

1 Orchard, T., and M. A. Woodbury. 1972. “A Missing Information Principle: Theory and Applications.” In Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability, 1:697–715.
Menangani Data Hilang dengan Imputasi di R

Data NHANES

head(nhanes, 3)
  Age Gender Weight Height Diabetes TotChol Pulse PhysActive
1  16   male   73.2  172.0    FALSE    3.00    76       TRUE
2  17   male   72.3  176.0    FALSE    2.61    74       TRUE
3  12   male   57.7  158.9    FALSE    4.27    80       TRUE
nhanes %>% is.na() %>% colSums()
Age     Gender     Weight     Height   Diabetes    TotChol    Pulse   PhysActive 
0       0          9          8        1            85        32      26
Menangani Data Hilang dengan Imputasi di R

Regresi linear dengan data tidak lengkap

model_1 <- lm(Diabetes ~ Age + Weight, 
              data = nhanes)

Bagian dari summary(model_1):

Residual standard error: 0.08571 on 804 
degrees of freedom (10 observations 
deleted due to missingness)

Adjusted R-squared:  0.005706 
F-statistic: 3.313 on 2 and 804 DF,  
p-value: 0.03691
model_2 <- lm(Diabetes ~ Age + Weight +
              TotChol, data = nhanes)

Bagian dari summary(model_2):

Residual standard error: 0.08264 on 718 
degrees of freedom (95 observations
deleted due to missingness)

Adjusted R-squared:  0.008422 
F-statistic: 3.041 on 3 and 718 DF,
p-value: 0.02834
Menangani Data Hilang dengan Imputasi di R

Inti pembelajaran

  • Terkadang data hilang diabaikan diam-diam oleh perangkat lunak statistik.
  • Akibatnya, membandingkan model bisa menjadi tidak mungkin.
  • Sekadar membuang semua observasi tidak lengkap dapat menimbulkan bias.
  • Data hilang, jika ada, harus ditangani dengan tepat.
Menangani Data Hilang dengan Imputasi di R

Ayo berlatih!

Menangani Data Hilang dengan Imputasi di R

Preparing Video For Download...