Metodi di distanza tra stringhe

Espressioni regolari intermedie in R

Angelo Zehr

Data Journalist

Damerau-Levenshtein

errore di battitura di rick caplan

Espressioni regolari intermedie in R

Abbreviazioni dei metodi

Distanza di Levenshtein standard:

stringdist(a, b, method = "lv")

Distanza di Damerau-Levenshtein:

stringdist(a, b, method = "dl")

Distanza OSA (Optimal String Alignment):

stringdist(a, b, method = "osa")
Espressioni regolari intermedie in R

Q-gram (o n-gram)

q-gram di honolulu

Espressioni regolari intermedie in R

Q-gram (o n-gram)

q-gram di honolulu e hanolulu

Espressioni regolari intermedie in R

Ispezionare i q-gram

qgrams("Honolulu", "Hanolulu", q = 2)

Restituisce:

   Ho on ul no ol lu la
V1  1  1  1  1  1  2  0
V2  1  1  1  1  1  1  1
Espressioni regolari intermedie in R

Abbreviazioni dei metodi

Somma dei q-gram non condivisi

stringdist(a, b, method = "qgram") # equals 4

Q-gram non condivisi divisi per il totale

stringdist(a, b, method = "jaccard") # equals 0.5

Distanza OSA (Optimal String Alignment)

stringdist(a, b, method = "cosine") # equals 0.22
Espressioni regolari intermedie in R

Passiamo alla pratica!

Espressioni regolari intermedie in R

Preparing Video For Download...