Menggabungkan semuanya

Menangani Data Hilang dengan Imputasi di R

Michal Oleszak

Machine Learning Engineer

Studi kasus: kebebasan sipil di Afrika

head(africa)
  year      country gdp_pc  infl trade    civlib population
1 1972 Burkina Faso    377 -2.92 29.69 0.5000000    5848380
2 1973 Burkina Faso    376  7.60 31.31 0.5000000    5958700
3 1974 Burkina Faso    393  8.72 35.22 0.3333333    6075700
4 1975 Burkina Faso    416 18.76 40.11 0.3333333    6202000
5 1976 Burkina Faso    435 -8.40 37.76 0.5000000    6341030
6 1977 Burkina Faso    448 29.99 41.11 0.6666667    6486870
1 Sumber data: https://scholar.harvard.edu/rbates/data
Menangani Data Hilang dengan Imputasi di R

Pemodelan data tidak lengkap

Tujuan: teliti hubungan antara kebebasan sipil, civlib, dan PDB per kapita, gdp_pc.

  1. Visualisasikan data tidak lengkap.
    • Variabel mana yang hilang?
    • Mekanisme data hilangnya apa?
  2. Imputasi data hilang dan periksa kualitasnya.
  3. Jalankan model pada data terimputasi, perhitungkan ketidakpastian imputasi.
Menangani Data Hilang dengan Imputasi di R

Yang Anda perlukan

  • aggr()
  • spineMiss()
  • mice() - with() - pool()
Menangani Data Hilang dengan Imputasi di R

Menilai kualitas imputasi dengan MICE

  • mice() menghasilkan beberapa set data terimputasi.
  • Memvisualisasikan masing-masing dengan fungsi VIM bisa merepotkan.
  • Paket mice memiliki plot sendiri yang otomatis menangani banyak set data.
nhanes_multiimp <- mice(nhanes, m = 5, defaultMethod = "pmm")
stripplot(nhanes_multiimp, 
          Weight ~ Height | .imp,
          pch = 20, cex = 2)
Menangani Data Hilang dengan Imputasi di R

Strip plot

Kisi berisi enam scatter plot Tinggi vs Berat. Tiap plot menyorot nilai imputasi berwarna. Nilai imputasi mendekati nilai teramati, sehingga sulit dibedakan selain dari warnanya.

Menangani Data Hilang dengan Imputasi di R

Ayo berlatih!

Menangani Data Hilang dengan Imputasi di R

Preparing Video For Download...