Eksik veri desenlerini görselleştirme

R'de Atamaya Dayalı Eksik Veri Doldurma

Michal Oleszak

Machine Learning Engineer

Test yaklaşımının sorunları

  • İstatistiksel testlerle eksik veri desenlerini saptamak zahmetli olabilir.
  • t-testi veri hakkında birçok varsayım içerir.
  • p-değerlerine dayalı çıkarımlar sorunludur (anlamlılık düzeyi seçimi, p-hileciliği).
R'de Atamaya Dayalı Eksik Veri Doldurma

Eksik veriyi görselleştirme

  • Başka bir yaklaşım: görselleştirme!
  • Kullanımı kolay.
  • Eksik veri desenlerini saptar.
  • Diğer veri kalitesi yönlerine dair içgörü sağlar.

VIM paketi, eksik veriyi çizmek için güçlü araçlar sunar. Bu derste:

  • Toplama grafiği
  • Omurga grafiği
  • Mozaik grafik
R'de Atamaya Dayalı Eksik Veri Doldurma

Toplama grafiği

nhanes %>% aggr(combined = TRUE, numbers = TRUE)

Bir ızgaradan oluşan ve biyografi veri setindeki değişkenlerde gözlenen-eksik tüm kombinasyonları gösteren bir toplama grafiği. Her kombinasyon için ilgili eksiklik desenine sahip gözlemlerin yüzdesi gösterilir.

R'de Atamaya Dayalı Eksik Veri Doldurma

Omurga grafiği

nhanes %>% select(Gender, TotChol) %>% spineMiss()

Erkek ve kadınlara karşılık iki çubuktan oluşan omurga grafiği. Her çubukta, ilgili cinsiyet için toplam kolesterol değişkenindeki eksik değer yüzdesi gösterilir.

R'de Atamaya Dayalı Eksik Veri Doldurma

Mozaik grafik

nhanes %>% mosaicMiss(highlight = "TotChol", plotvars = c("Gender", "PhysActive"))

Bir dikdörtgen oluşturan karo koleksiyonundan oluşan mozaik grafik. Her karo, "Gender" ve "PhysActive" değerlerinin birine karşılık gelir. Karoların içinde, toplam kolesterol değişkenindeki eksik değer yüzdesi gösterilir.

R'de Atamaya Dayalı Eksik Veri Doldurma

Nelerin eksik olduğunu çizelim!

R'de Atamaya Dayalı Eksik Veri Doldurma

Preparing Video For Download...