Hot-deck ataması

R'de Atamaya Dayalı Eksik Veri Doldurma

Michal Oleszak

Machine Learning Engineer

Hot-deck'in tarihi

  • 1950'lere, verilerin delikli kartlarda saklandığı döneme dayanır.
  • Veriye ileri-geri bakmak çok yavaştı.
  • ABD Nüfus Bürosu, veriden yalnızca bir kez geçmeyi gerektiren bir yöntem geliştirdi.

Bilgisayar programlamada kullanılan eski bir delikli kartın resmi.

1 Görsel kaynağı: https://en.wikipedia.org/wiki/Punched_card#/media/File:Used_Punchcard_(5151286161).jpg
R'de Atamaya Dayalı Eksik Veri Doldurma

Hot-deck ataması

  • Her değişken için, her eksik değeri son gözlenen değerle değiştirin.
  • Hot-deck, işlemdeki delikli kart destesine atıfta bulunur.

Eksileri

  • Verinin MCAR olmasını gerektirir.
  • Basit hot-deck değişkenler arası ilişkileri bozabilir.

Artıları

  • Hızlıdır (veriden tek geçiş).
  • Atanan değerler sabit değildir.
  • Basit tekniklerle ilişkiler korunabilir.
R'de Atamaya Dayalı Eksik Veri Doldurma

Uygulamada hot-deck ataması

nhanes_imp <- hotdeck(nhanes, variable = c("Height", "Weight"))
head(nhanes_imp)
  Age Gender Weight Height Diabetes TotChol Pulse PhysActive Height_imp Weight_imp
1  16   male   73.2  172.0    FALSE    3.00    76       TRUE      FALSE      FALSE
2  17   male   72.3  176.0    FALSE    2.61    74       TRUE      FALSE      FALSE
3  12   male   57.7  158.9    FALSE    4.27    80       TRUE      FALSE      FALSE
4  16   male   88.9  183.3    FALSE    3.62    58       TRUE      FALSE      FALSE
5  13 female   45.1  157.6    FALSE    2.66    92       TRUE      FALSE      FALSE
6  16 female   48.7  180.7    FALSE    4.32    58      FALSE       TRUE      FALSE
R'de Atamaya Dayalı Eksik Veri Doldurma

Alanlar içinde atama

İki sütunlu bir tablo: PhysActive ve Weight. Kilo'da bir eksik değer var. Satırlar rastgele olduğundan, PhysActive=FALSE olan bir satır, PhysActive=TRUE ve eksik Kilolu satırdan önce gelir. Bu, hot-deck'in kiloyu aktif olmayan bir kişiden aktif bir kişiye ileri beslediğini gösterir.

İki sütunlu bir tablo: PhysActive ve Weight. Kilo'da bir eksik değer var. Veriler PhysActive'e göre gruplanmış olduğundan, hot-deck aktif bir kişinin değerini başka bir aktif kişiye ileri besler.

nhanes_imp <- hotdeck(
    nhanes, 
    variable = "Weight", 
    domain_var = "PhysActive"
)
R'de Atamaya Dayalı Eksik Veri Doldurma

İlişkili değişkenlere göre sıralama

İki değişkenli bir tablo: Boy ve Kilo. Kilo'da bir eksik değer var. Satırlar rastgele sırada olduğundan, küçük boya ve eksik kiloya sahip satırdan önce büyük boya sahip bir satır geliyor. Bu, hot-deck'in kiloyu uzun bir kişiden kısa bir kişiye ileri beslediğini gösterir.

İki değişkenli bir tablo: Boy ve Kilo. Kilo'da bir eksik değer var. Satırlar Boy'a göre sıralandığından, hot-deck kiloyu kısa bir kişiden başka kısa bir kişiye ileri besler.

nhanes_imp <- hotdeck(
    nhanes, 
    variable = "Weight"
    ord_var = "Height"
)
R'de Atamaya Dayalı Eksik Veri Doldurma

Hot-deck atamasını uygulayalım!

R'de Atamaya Dayalı Eksik Veri Doldurma

Preparing Video For Download...