Memvisualisasikan pola data hilang

Menangani Data Hilang dengan Imputasi di R

Michal Oleszak

Machine Learning Engineer

Masalah pendekatan pengujian

  • Mendeteksi pola data hilang dengan uji statistik bisa merepotkan.
  • t-test punya banyak asumsi tentang data.
  • Inferensi berbasis p-value rawan masalah (level signifikansi, p-hacking).
Menangani Data Hilang dengan Imputasi di R

Memvisualisasikan data hilang

  • Pendekatan lain: visualisasi!
  • Mudah digunakan.
  • Mampu mendeteksi pola data hilang.
  • Memberi wawasan soal kualitas data lainnya.

Paket VIM memiliki alat hebat untuk memplot data hilang. Dalam pelajaran ini:

  • Aggregation plot
  • Spine plot
  • Mosaic plot
Menangani Data Hilang dengan Imputasi di R

Aggregation plot

nhanes %>% aggr(combined = TRUE, numbers = TRUE)

Plot agregasi berupa kisi yang menampilkan semua kombinasi nilai hilang dan teramati pada berbagai variabel di dataset biopics. Untuk tiap kombinasi, ditunjukkan persentase observasi dengan pola kehilangannya.

Menangani Data Hilang dengan Imputasi di R

Spine plot

nhanes %>% select(Gender, TotChol) %>% spineMiss()

Spine plot terdiri dari dua batang untuk laki-laki dan perempuan. Di dalam tiap batang, ditampilkan persentase nilai hilang pada variabel total kolesterol untuk gender tersebut.

Menangani Data Hilang dengan Imputasi di R

Mosaic plot

nhanes %>% mosaicMiss(highlight = "TotChol", plotvars = c("Gender", "PhysActive"))

Mosaic plot berupa kumpulan ubin membentuk persegi panjang. Tiap ubin merepresentasikan salah satu nilai "Gender" dan salah satu nilai "PhysActive". Di dalam tiap ubin, ditampilkan persentase nilai hilang pada variabel total kolesterol.

Menangani Data Hilang dengan Imputasi di R

Mari plot yang hilang!

Menangani Data Hilang dengan Imputasi di R

Preparing Video For Download...