Data opschonen in R
Maggie Matsui
Content Developer @ DataCamp











library(reclin)
pair_blocking(df_A, df_B)
Eenvoudige blocking Geen blocking gebruikt. Eerste dataset: 5 records Tweede dataset: 5 records Totaal aantal paren: 25 parenldat met 25 rijen en 2 kolommen x y 1 1 1 2 2 1 3 3 1 ...


Neem alleen paren mee die overeenkomen op de blockingvariabele (State)
pair_blocking(df_A, df_B, blocking_var = "state")
Eenvoudige blocking ldat met 8 rijen en 2 kolommen
Blockingvariabele(n): state x y
Eerste dataset: 5 records 1 1 1
Tweede dataset: 5 records 2 1 4
Totaal aantal paren: 8 paren 3 2 3
4 2 5
5 3 2
6 4 2
7 5 1
8 5 4

pair_blocking(df_A, df_B, blocking_var = "state") %>%compare_pairs(by = "name", default_comparator = lcs())
Vergelijken ldat met 8 rijen en 3 kolommen
Op: name x y name
1 1 1 0.3529412
Eenvoudige blocking 2 1 4 0.3030303
Blockingvariabele(n): state 3 2 3 0.9285714
Eerste dataset: 5 records 4 2 5 0.2962963
Tweede dataset: 5 records ...
Totaal aantal paren: 8 paren 8 5 4 0.3333333
pair_blocking(df_A, df_B, blocking_var = "state") %>%
compare_pairs(by = c("name", "zip"), default_comparator = lcs())
Vergelijken ldat met 8 rijen en 4 kolommen
Op: name, zip x y name zip
1 1 1 0.3529412 0.4
Eenvoudige blocking 2 1 4 0.3030303 0.2
Blockingvariabele(n): state 3 2 3 0.9285714 1.0
Eerste dataset: 5 records 4 2 5 0.2962963 0.2
Tweede dataset: 5 records ...
Totaal aantal paren: 8 paren 8 5 4 0.3333333 0.2
default_comparator = lcs()default_comparator = jaccard()default_comparator = jaro_winkler()Data opschonen in R