Zincirlenmiş denklemlerle çoklu atama

R'de Atamaya Dayalı Eksik Veri Doldurma

Michal Oleszak

Machine Learning Engineer

MICE algoritması

MICE algoritmasının dört aşamasını gösteren bir grafik. “eksik veri” düğümünden, “mice()” etiketi taşıyan oklarla üç “atanmış veri” düğümüne gidilir. Her biri “with()” etiketli okla bir “analiz sonuçları” düğümüne bağlıdır. Bunların her biri “pool()” etiketli okla aynı “birleştirilmiş sonuçlar” düğümüne bağlanır.

1 van Buuren, S., & Groothuis-Oudshoorn, C. G. M. (2011). mice: Multivariate Imputation by Chained Equations in R. Journal of statistical software, 45(3).
R'de Atamaya Dayalı Eksik Veri Doldurma

MICE: artılar ve eksiler

Artıları:

  • Bootstrap’ten daha az yineleme gerektirir.
  • MAR ve MCAR verilerde çalışır.
  • MNAR’a duyarlılık analizine izin verir.

Eksileri:

  • Yalnızca seçili atama yöntemleriyle çalışır.
  • Daha fazla ayar gerektirir (model seçimi, yordayıcı seçimi).
R'de Atamaya Dayalı Eksik Veri Doldurma

mice - with - pool akışı

nhanes’i 20 kez ata:

library(mice)
nhanes_multiimp <- mice(nhanes, m = 20)

Her atanmış veri kümesine doğrusal regresyon uydur:

lm_multiimp <- with(nhanes_multiimp, lm(Weight ~ Height + TotChol + PhysActive))

Regresyon sonuçlarını birleştir:

lm_pooled <- pool(lm_multiimp)
R'de Atamaya Dayalı Eksik Veri Doldurma

Birleştirilmiş sonuçları analiz etme

summary(lm_pooled, conf.int = TRUE, conf.level = 0.95)
            estimate std.error statistic      df p.value    2.5 %   97.5 %
(Intercept) -122.964    10.933   -11.247 735.389   0.000 -144.428 -101.500
Height         1.086     0.060    18.158 796.106   0.000    0.968    1.203
TotChol        2.653     0.884     3.003 305.460   0.003    0.915    4.392
PhysActive    -1.746     1.422    -1.228 733.957   0.220   -4.536    1.045
R'de Atamaya Dayalı Eksik Veri Doldurma

MICE: mevcut yöntemler

van Buuren ve arkadaşlarının makalesinden, MICE’ta mevcut atama modellerini gösteren bir tablo. Her model, adı, anahtar sözcüğü, kullanılabildiği değişken türü ve varsayılan olup olmadığıyla tanımlanır.

1 van Buuren, S., & Groothuis-Oudshoorn, C. G. M. (2011). mice: Multivariate Imputation by Chained Equations in R. Journal of statistical software, 45(3).
R'de Atamaya Dayalı Eksik Veri Doldurma

Değişken türüne göre yöntem seçimi

mice() defaultMethod argümanını alır: 4 dizeden oluşan bir vektör; yöntemleri belirtir:

  1. Sürekli değişkenler
  2. İkili değişkenler
  3. Kategorik değişkenler (sırasız faktörler)
  4. Faktör değişkenler (sıralı faktörler)
nhanes_multiimp <- mice(nhanes, m = 20, 
                        defaultMethod = c("pmm", "logreg", "polyreg", "polr"))
R'de Atamaya Dayalı Eksik Veri Doldurma

Yordayıcı matrisi

predictorMatrix, hangi değişkenlerin diğerlerini atamada kullanılacağını belirler.

nhanes_multiimp <- mice(nhanes, m = 20)
nhanes_multiimp$predictorMatrix
           Age Gender Weight Height Diabetes TotChol Pulse PhysActive
Age          0      1      1      1        1       1     1          1
Gender       1      0      1      1        1       1     1          1
Weight       1      1      0      1        1       1     1          1
Height       1      1      1      0        1       1     1          1
Diabetes     1      1      1      1        0       1     1          1
TotChol      1      1      1      1        1       0     1          1
Pulse        1      1      1      1        1       1     0          1
PhysActive   1      1      1      1        1       1     1          0
R'de Atamaya Dayalı Eksik Veri Doldurma

Her değişken için yordayıcı seçimi

  • Tercihen uygun bir model seçimi yapılmalıdır.
  • Hızlı alternatif: hedefle ilişkili değişkenleri kullanın.
pred_mat <- quickpred(nhanes, mincor = 0.25)
nhanes_multiimp <- mice(nhanes, m = 20, predictorMatrix = pred_mat)
print(pred_mat)
           Age Gender Weight Height Diabetes TotChol Pulse PhysActive
Age          0      0      0      0        0       0     0          0
Gender       0      0      0      0        0       0     0          0
Weight       1      1      0      0        0       0     1          0
...
R'de Atamaya Dayalı Eksik Veri Doldurma

MICE ile atama pratiği yapalım!

R'de Atamaya Dayalı Eksik Veri Doldurma

Preparing Video For Download...