Eksik veri mekanizmaları

R'de Atamaya Dayalı Eksik Veri Doldurma

Michal Oleszak

Machine Learning Engineer

Eksik Veri Mekanizmaları: genel bakış

Eksik veri sorunları üç sınıfa ayrılır. Bunları ayırt etmek kritik önemdedir; her biri farklı çözüm gerektirir.

  • Rastgele Tam Eksik (MCAR)
  • Rastgele Eksik (MAR)
  • Rastgele Olmayan Eksik (MNAR)
R'de Atamaya Dayalı Eksik Veri Doldurma

Rastgele Tam Eksik (MCAR)

Veri setindeki eksik değer konumları bütünüyle rastgele olup başka verilere bağlı değildir.

Örnek:

Bir hava sensörü sıcaklığı ölçüp veritabanına gönderiyor. Sensör arızalandığında veritabanında bazı eksik kayıtlar oluşuyor.

R'de Atamaya Dayalı Eksik Veri Doldurma

Rastgele Eksik (MAR)

Veri setindeki eksik değer konumları, gözlenen başka verilere bağlıdır.

Örnek:

Bakım için sensör kapatıldığında bazı sıcaklık değerleri eksiktir. Bakım ekibi hafta sonu çalışmadığı için eksik değerlerin konumu haftanın gününe bağlıdır.

R'de Atamaya Dayalı Eksik Veri Doldurma

Rastgele Olmayan Eksik (MNAR)

Veri setindeki eksik değer konumları, eksik değerlerin kendisine bağlıdır.

Örnek:

Aşırı soğukta sensör donar ve çalışmaz. Çok düşük sıcaklıklar kaydedilmez. Bu nedenle sıcaklık değişkenindeki eksik değerlerin konumu, bu değişkenin kendi değerlerine bağlıdır.

R'de Atamaya Dayalı Eksik Veri Doldurma

Mekanizmalarla başa çıkma

Eksik gözlemleri doğrudan silelim mi?

  • Veri MCAR ise, silmek yalnızca bilgi kaybıdır.
  • Veri MAR veya MNAR ise, silmek bu verilerle kurulan modellere yanlılık katar.
  • Bu durumda eksik değerler imputasyonla doldurulmalıdır.
  • Birçok imputasyon yöntemi MAR varsayar; bu yüzden tespiti önemlidir.
R'de Atamaya Dayalı Eksik Veri Doldurma

İstatistiksel test

Örnek: ortalama farkı için t-testi

  1. Varsayım (null hipotezi): ortalamalar eşittir.
  2. Verinizden test istatistiğini hesaplayın.
  3. p-değerini hesaplayın: null hipotezi doğruysa elde edilen test istatistiğinin görülme olasılığı nedir?

p-değeri küçük → null hipotezini reddet → ortalamalar farklı


p-değeri büyük → null hipotezini reddetme → ortalamalar eşit

R'de Atamaya Dayalı Eksik Veri Doldurma

MAR için test

Amaç: bir değişkendeki eksik değer yüzdesi, başka bir değişkenin değerlerine göre farklı mı, test etmek.

Örnek: PhysActive içindeki eksik değer yüzdesi erkek ve kadınlarda farklı mı?

Test adımları:

  1. PhysActive eksik mi gösteren bir kukla değişken oluşturun.
  2. Bu kuklanın ortalaması erkek ve kadınlarda farklı mı diye t-testi yapın.
  3. p-değeri küçükse (örn. < 0.05), ortalamalar farklıdır; veri MAR’dır.
R'de Atamaya Dayalı Eksik Veri Doldurma

Uygulamada test

nhanes <- nhanes %>% 
  mutate(missing_phys_active = is.na(PhysActive))
missing_phys_active_male <- nhanes %>% 
  filter(Gender == "male") %>% 
  pull(missing_phys_active)

missing_phys_active_female <- nhanes %>% 
  filter(Gender == "female") %>% 
  pull(missing_phys_active)
R'de Atamaya Dayalı Eksik Veri Doldurma

Test sonuçlarını yorumlama

t.test(missing_phys_active_female, missing_phys_active_male)
    Welch Two Sample t-test

data:  missing_phys_active_female and missing_phys_active_male
t = -1.7192, df = 781.18, p-value = 0.08597
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.044414688  0.002940477
sample estimates:
 mean of x  mean of y 
0.02083333 0.04157044
R'de Atamaya Dayalı Eksik Veri Doldurma

Eksik veri mekanizmalarını tanıyalım!

R'de Atamaya Dayalı Eksik Veri Doldurma

Preparing Video For Download...