R'de Atamaya Dayalı Eksik Veri Doldurma
Michal Oleszak
Machine Learning Engineer
Eksik veri sorunları üç sınıfa ayrılır. Bunları ayırt etmek kritik önemdedir; her biri farklı çözüm gerektirir.
Veri setindeki eksik değer konumları bütünüyle rastgele olup başka verilere bağlı değildir.
Örnek:
Bir hava sensörü sıcaklığı ölçüp veritabanına gönderiyor. Sensör arızalandığında veritabanında bazı eksik kayıtlar oluşuyor.
Veri setindeki eksik değer konumları, gözlenen başka verilere bağlıdır.
Örnek:
Bakım için sensör kapatıldığında bazı sıcaklık değerleri eksiktir. Bakım ekibi hafta sonu çalışmadığı için eksik değerlerin konumu haftanın gününe bağlıdır.
Veri setindeki eksik değer konumları, eksik değerlerin kendisine bağlıdır.
Örnek:
Aşırı soğukta sensör donar ve çalışmaz. Çok düşük sıcaklıklar kaydedilmez. Bu nedenle sıcaklık değişkenindeki eksik değerlerin konumu, bu değişkenin kendi değerlerine bağlıdır.
Eksik gözlemleri doğrudan silelim mi?
Örnek: ortalama farkı için t-testi
p-değeri küçük → null hipotezini reddet → ortalamalar farklı
p-değeri büyük → null hipotezini reddetme → ortalamalar eşit
Amaç: bir değişkendeki eksik değer yüzdesi, başka bir değişkenin değerlerine göre farklı mı, test etmek.
Örnek: PhysActive içindeki eksik değer yüzdesi erkek ve kadınlarda farklı mı?
Test adımları:
PhysActive eksik mi gösteren bir kukla değişken oluşturun.nhanes <- nhanes %>%
mutate(missing_phys_active = is.na(PhysActive))
missing_phys_active_male <- nhanes %>%
filter(Gender == "male") %>%
pull(missing_phys_active)
missing_phys_active_female <- nhanes %>%
filter(Gender == "female") %>%
pull(missing_phys_active)
t.test(missing_phys_active_female, missing_phys_active_male)
Welch Two Sample t-test
data: missing_phys_active_female and missing_phys_active_male
t = -1.7192, df = 781.18, p-value = 0.08597
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.044414688 0.002940477
sample estimates:
mean of x mean of y
0.02083333 0.04157044
R'de Atamaya Dayalı Eksik Veri Doldurma