Aangepaste fuzzy matching

Gevorderde reguliere expressies in R

Angelo Zehr

Data Journalist

Twee fuzzy matches combineren

filmtabellen

Gevorderde reguliere expressies in R

Twee fuzzy matches combineren

gemarkeerde kolommen

Gevorderde reguliere expressies in R

Fuzzy matches: helperfuncties

Voor de stringvergelijking:

small_str_distance <- function(left, right) {
  stringdist(left, right) <= 5
}

Voor de getalvergelijking:

close_to_each_other <- function(left, right) {
  abs(left - right) <= 3
}
Gevorderde reguliere expressies in R

De fuzzy join

fuzzy_left_join(
  a, b,
  by = c(
    "title" = "prod_title",
    "year" = "prod_year"
  ),
  match_fun = c(
    "title" = small_str_distance,
    "year" = close_to_each_other
  )
)
Gevorderde reguliere expressies in R

De fuzzy join: het resultaat

samengevoegde tabel

Gevorderde reguliere expressies in R

Laten we oefenen!

Gevorderde reguliere expressies in R

Preparing Video For Download...