Hepsini bir araya getirme

R'de Atamaya Dayalı Eksik Veri Doldurma

Michal Oleszak

Machine Learning Engineer

Vaka çalışması: Afrika’da sivil özgürlükler

head(africa)
  year      country gdp_pc  infl trade    civlib population
1 1972 Burkina Faso    377 -2.92 29.69 0.5000000    5848380
2 1973 Burkina Faso    376  7.60 31.31 0.5000000    5958700
3 1974 Burkina Faso    393  8.72 35.22 0.3333333    6075700
4 1975 Burkina Faso    416 18.76 40.11 0.3333333    6202000
5 1976 Burkina Faso    435 -8.40 37.76 0.5000000    6341030
6 1977 Burkina Faso    448 29.99 41.11 0.6666667    6486870
1 Veri kaynağı: https://scholar.harvard.edu/rbates/data
R'de Atamaya Dayalı Eksik Veri Doldurma

Eksik veriyi modelleme

Amaç: sivil özgürlükler civlib ile kişi başına GSYİH gdp_pc arasındaki ilişkiyi incelemek.

  1. Eksik veriyi görselleştirin.
    • Hangi değişkenler eksik?
    • Olası eksik veri mekanizmaları neler?
  2. Eksik veriyi atayın ve atama kalitesini inceleyin.
  3. Atama belirsizliğini hesaba katarak model kurun.
R'de Atamaya Dayalı Eksik Veri Doldurma

Gerekenler

  • aggr()
  • spineMiss()
  • mice() - with() - pool()
R'de Atamaya Dayalı Eksik Veri Doldurma

MICE ile atama kalitesini değerlendirme

  • mice() birden çok atanan veri kümesi üretir.
  • Her birini VIM işlevleriyle görselleştirmek zahmetli olabilir.
  • mice paketi, çoklu veri kümelerini otomatik yöneten kendi grafiklerini sunar.
nhanes_multiimp <- mice(nhanes, m = 5, defaultMethod = "pmm")
stripplot(nhanes_multiimp, 
          Weight ~ Height | .imp,
          pch = 20, cex = 2)
R'de Atamaya Dayalı Eksik Veri Doldurma

Şerit grafiği

Altı adet Boy vs Kilo saçılım grafiği ızgarası. Her grafikte atanan değerler renkle vurgulanmış. Atanan değerler gözlenen değerlere çok yakın, renkten başka ayırt edilemiyor.

R'de Atamaya Dayalı Eksik Veri Doldurma

Öğrendiklerinizi pratiğe dökelim!

R'de Atamaya Dayalı Eksik Veri Doldurma

Preparing Video For Download...