Methoden voor string-afstanden

Gevorderde reguliere expressies in R

Angelo Zehr

Data Journalist

Damerau–Levenshtein

rick caplan typefout

Gevorderde reguliere expressies in R

Methodafkortingen

Gewone Levenshtein-afstand:

stringdist(a, b, method = "lv")

Damerau–Levenshtein-afstand:

stringdist(a, b, method = "dl")

Optimal String Alignment-afstand:

stringdist(a, b, method = "osa")
Gevorderde reguliere expressies in R

Q-grams (of n-grams)

honolulu q-grams

Gevorderde reguliere expressies in R

Q-grams (of n-grams)

honolulu hanolulu q-grams

Gevorderde reguliere expressies in R

Q-grams inspecteren

qgrams("Honolulu", "Hanolulu", q = 2)

Retourneert:

   Ho on ul no ol lu la
V1  1  1  1  1  1  2  0
V2  1  1  1  1  1  1  1
Gevorderde reguliere expressies in R

Methodafkortingen

Som van niet-gedeelde q-grams

stringdist(a, b, method = "qgram") # equals 4

Niet-gedeelde q-grams gedeeld door totaal aantal q-grams

stringdist(a, b, method = "jaccard") # equals 0.5

Optimal String Alignment-afstand

stringdist(a, b, method = "cosine") # equals 0.22
Gevorderde reguliere expressies in R

Laten we oefenen!

Gevorderde reguliere expressies in R

Preparing Video For Download...