Membuat dan membandingkan pasangan

Membersihkan Data di R

Maggie Matsui

Content Developer @ DataCamp

Saat join tidak berhasil

Tabel kiri memiliki kolom event dan time. Pertandingan: Houston Rockets vs Chicago Bulls pukul 19:00. Miami Heat vs Los Angeles Lakers pukul 19:00. Brooklyn Nets vs Orlando Magic pukul 20:00. Denver Nuggets vs Miami Heat pukul 21:00. San Antonio Spurs vs Atlanta Hawks pukul 21:00. Tabel kanan: NBA: Nets vs Magic pukul 8pm. NBA: Bulls vs Rockets pukul 9pm. NBA: Heat vs Lakers pukul 7pm. NBA: Grizzlies vs Heat pukul 10pm. NBA: Heat vs Cavaliers pukul 9pm.

Membersihkan Data di R

Saat join tidak berhasil

Membersihkan Data di R

Apa itu record linkage?

record_linkage_1.png

Membersihkan Data di R

Apa itu record linkage?

Di kiri, dua basis data dengan sapu bertanda Data A dan Data B

Membersihkan Data di R

Apa itu record linkage?

Panah dari Data A dan Data B ke tiga pasangan orang, berlabel Generate pairs

Membersihkan Data di R

Apa itu record linkage?

Panah dari generate pairs ke dua kolom lingkaran dengan panah saling menunjuk. Deskripsi: bandingkan pasangan.

Membersihkan Data di R

Apa itu record linkage?

Panah dari compare pairs ke gambar orang memegang papan bertuliskan .93. Berlabel score pairs.

Membersihkan Data di R

Apa itu record linkage?

Panah dari score pairs ke rantai, berlabel tautkan data.

Membersihkan Data di R

Apa itu record linkage?

Diagram yang sama dengan kotak biru di sekitar langkah generate pairs

Membersihkan Data di R

Pasangan rekaman

Dua tabel, df_A dan df_B masing-masing berisi nama, kode pos, dan state. Satu baris di df_A disorot untuk Keaton Z Snyder, zip 15020, state PA. Satu baris di df_B disorot untuk Keaton Snyder, zip 15020, state PA.

Membersihkan Data di R

Membuat pasangan

Tabel yang sama dengan garis dari tiap baris di df_A ke tiap baris di df_B untuk menunjukkan semua kombinasi.

Membersihkan Data di R

Membuat pasangan di R

library(reclin)
pair_blocking(df_A, df_B)
Simple blocking
  No blocking used.
  First data set:  5 records
  Second data set: 5 records
  Total number of pairs: 25 pairs

ldat with 25 rows and 2 columns x y 1 1 1 2 2 1 3 3 1 ...
Membersihkan Data di R

Terlalu banyak pasangan

Tabel yang sama diperpanjang ke bawah dengan lebih banyak baris, dengan lebih banyak garis menghubungkan tiap pasangan.

Membersihkan Data di R

Blocking

Tabel yang sama, tetapi hanya baris dengan state yang sama yang dihubungkan.

Hanya pertimbangkan pasangan yang sama pada variabel blocking (State)

Membersihkan Data di R

Pair blocking di R

pair_blocking(df_A, df_B, blocking_var = "state")
Simple blocking                                 ldat with 8 rows and 2 columns
  Blocking variable(s): state                     x y
  First data set:  5 records                    1 1 1
  Second data set: 5 records                    2 1 4
  Total number of pairs: 8 pairs                3 2 3
                                                4 2 5
                                                5 3 2
                                                6 4 2
                                                7 5 1
                                                8 5 4
Membersihkan Data di R

Membandingkan pasangan

Diagram langkah record linkage dengan langkah compare pairs disorot.

Membersihkan Data di R

Membandingkan pasangan

pair_blocking(df_A, df_B, blocking_var = "state") %>%

compare_pairs(by = "name", default_comparator = lcs())
Compare                                     ldat with 8 rows and 3 columns            
  By: name                                      x y      name
                                              1 1 1 0.3529412
Simple blocking                               2 1 4 0.3030303
  Blocking variable(s): state                 3 2 3 0.9285714
  First data set:  5 records                  4 2 5 0.2962963    
  Second data set: 5 records                  ...
  Total number of pairs: 8 pairs              8 5 4 0.3333333
Membersihkan Data di R

Membandingkan beberapa kolom

pair_blocking(df_A, df_B, blocking_var = "state") %>%
  compare_pairs(by = c("name", "zip"), default_comparator = lcs())
Compare                                    ldat with 8 rows and 4 columns
  By: name, zip                              x y      name zip
                                           1 1 1 0.3529412 0.4
Simple blocking                            2 1 4 0.3030303 0.2
  Blocking variable(s): state              3 2 3 0.9285714 1.0
  First data set:  5 records               4 2 5 0.2962963 0.2
  Second data set: 5 records               ...
  Total number of pairs: 8 pairs           8 5 4 0.3333333 0.2
Membersihkan Data di R

Pembanding berbeda

  • default_comparator = lcs()
  • default_comparator = jaccard()
  • default_comparator = jaro_winkler()
Membersihkan Data di R

Ayo berlatih!

Membersihkan Data di R

Preparing Video For Download...