Çiftler oluşturma ve karşılaştırma

R ile Veri Temizleme

Maggie Matsui

Content Developer @ DataCamp

Birleştirmeler ne zaman işlemez

Sol tablo: event ve time sütunları. Oyunlar: Houston Rockets vs Chicago Bulls 19:00; Miami Heat vs Los Angeles Lakers 19:00; Brooklyn Nets vs Orlando Magic 20:00; Denver Nuggets vs Miami Heat 21:00; San Antonio Spurs vs Atlanta Hawks 21:00. Sağ tablo: NBA: Nets vs Magic 8pm; NBA: Bulls vs Rockets 9pm; NBA: Heat vs Lakers 7pm; NBA: Grizzlies vs Heat 10pm; NBA: Heat vs Cavaliers 9pm.

R ile Veri Temizleme

Birleştirmeler ne zaman işlemez

R ile Veri Temizleme

Kayıt eşleştirme nedir?

record_linkage_1.png

R ile Veri Temizleme

Kayıt eşleştirme nedir?

Solda, “Veri A” ve “Veri B” etiketli iki veritabanı ve süpürgeler

R ile Veri Temizleme

Kayıt eşleştirme nedir?

Veri A ve Veri B’den üç kişi çiftine doğru oklar; etiket: Çiftler oluştur.

R ile Veri Temizleme

Kayıt eşleştirme nedir?

Ok, çiftler oluştur’dan karşılıklı farklı yönlere bakan okları olan iki sütun daireye gider. Açıklama: çiftleri karşılaştır.

R ile Veri Temizleme

Kayıt eşleştirme nedir?

Karşılaştır çiftlerinden bir kişiye giden ok; kişi .93 yazılı bir tabela tutuyor. Etiket: çiftleri puanla.

R ile Veri Temizleme

Kayıt eşleştirme nedir?

Puanla çiftlerinden zincire doğru bir ok; etiket: veriyi bağla.

R ile Veri Temizleme

Kayıt eşleştirme nedir?

Aynı diyagram; çiftleri oluştur adımı mavi kutu ile vurgulanmış

R ile Veri Temizleme

Kayıt çiftleri

İki tablo: df_A ve df_B; kişi adları, posta kodu ve eyalet içeriyor. df_A’da Keaton Z Snyder, posta kodu 15020, eyalet PA vurgulu. df_B’de Keaton Snyder, posta kodu 15020, eyalet PA vurgulu.

R ile Veri Temizleme

Çiftler oluşturma

Aynı tablolar; df_A’daki her satırdan df_B’deki her satıra tüm kombinasyonları gösteren çizgiler.

R ile Veri Temizleme

R’da çiftler oluşturma

library(reclin)
pair_blocking(df_A, df_B)
Simple blocking
  No blocking used.
  First data set:  5 records
  Second data set: 5 records
  Total number of pairs: 25 pairs

ldat with 25 rows and 2 columns x y 1 1 1 2 2 1 3 3 1 ...
R ile Veri Temizleme

Aşırı çok çift

Aynı tablolar aşağı doğru uzatılmış; çok daha fazla eşleştirme çizgisi.

R ile Veri Temizleme

Bloklama

Aynı tablolar; yalnızca aynı eyalete sahip satırlar çizgilerle bağlanmış.

Yalnızca bloklama değişkeninde (State) uyuşan çiftleri dikkate alın

R ile Veri Temizleme

R’da çift bloklama

pair_blocking(df_A, df_B, blocking_var = "state")
Simple blocking                                 ldat with 8 rows and 2 columns
  Blocking variable(s): state                     x y
  First data set:  5 records                    1 1 1
  Second data set: 5 records                    2 1 4
  Total number of pairs: 8 pairs                3 2 3
                                                4 2 5
                                                5 3 2
                                                6 4 2
                                                7 5 1
                                                8 5 4
R ile Veri Temizleme

Çiftleri karşılaştırma

Kayıt eşleştirme adımları diyagramı; çiftleri karşılaştır adımı vurgulanmış.

R ile Veri Temizleme

Çiftleri karşılaştırma

pair_blocking(df_A, df_B, blocking_var = "state") %>%

compare_pairs(by = "name", default_comparator = lcs())
Compare                                     ldat with 8 rows and 3 columns            
  By: name                                      x y      name
                                              1 1 1 0.3529412
Simple blocking                               2 1 4 0.3030303
  Blocking variable(s): state                 3 2 3 0.9285714
  First data set:  5 records                  4 2 5 0.2962963    
  Second data set: 5 records                  ...
  Total number of pairs: 8 pairs              8 5 4 0.3333333
R ile Veri Temizleme

Birden çok sütunu karşılaştırma

pair_blocking(df_A, df_B, blocking_var = "state") %>%
  compare_pairs(by = c("name", "zip"), default_comparator = lcs())
Compare                                    ldat with 8 rows and 4 columns
  By: name, zip                              x y      name zip
                                           1 1 1 0.3529412 0.4
Simple blocking                            2 1 4 0.3030303 0.2
  Blocking variable(s): state              3 2 3 0.9285714 1.0
  First data set:  5 records               4 2 5 0.2962963 0.2
  Second data set: 5 records               ...
  Total number of pairs: 8 pairs           8 5 4 0.3333333 0.2
R ile Veri Temizleme

Farklı karşılaştırıcılar

  • default_comparator = lcs()
  • default_comparator = jaccard()
  • default_comparator = jaro_winkler()
R ile Veri Temizleme

Hadi pratik yapalım!

R ile Veri Temizleme

Preparing Video For Download...