Comparar cadenas

Limpieza de datos en Python

Adel Nehme

VP of AI Curriculum, DataCamp

En este capítulo,

Capítulo 4 - Vinculación de registros

Distancia mínima de edición

Menor cantidad posible de pasos necesarios para pasar de una cadena a otra.

Distancia mínima de edición

Menor cantidad posible de pasos necesarios para pasar de una cadena a otra.

Distancia mínima de edición

Distancia mínima de edición hasta ahora: 2

Distancia mínima de edición

Distancia mínima de edición 5**

Distancia mínima de edición

Algoritmos de distancia mínima de edición

Algoritmo]( =80)	Operaciones
Damerau-Levenshtein	inserción, sustitución, eliminación, transposición
Levenshtein	inserción, sustitución, eliminación
Hamming	solo sustitución
Distancia Jaro	solo transposición
...	...

Paquetes posibles: nltk, thefuzz, textdistance..

Algoritmos de distancia mínima de edición

Algoritmo]( =80)	Operaciones
Damerau-Levenshtein	inserción, sustitución, eliminación, transposición
*Levenshtein*	**inserción, sustitución, eliminación**
Hamming	solo sustitución
Distancia Jaro	solo transposición
...	...

Posibles paquetes: thefuzz

Comparación simple de cadenas

# Lets us compare between two strings
from thefuzz import fuzz


# Compare reeding vs reading
fuzz.WRatio('Reeding', 'Reading')

Cadenas parciales y diferentes ordenaciones

# Partial string comparison
fuzz.WRatio('Houston Rockets', 'Rockets')

# Partial string comparison with different order
fuzz.WRatio('Houston Rockets vs Los Angeles Lakers', 'Lakers vs Rockets')

Comparación con arreglos

# Import process
from thefuzz import process

# Define string and array of possible matches
string = "Houston Rockets vs Los Angeles Lakers"
choices = pd.Series(['Rockets vs Lakers', 'Lakers vs Rockets', 
                     'Houson vs Los Angeles', 'Heat vs Bulls'])

process.extract(string, choices, limit = 2)

[('Rockets vs Lakers', 86, 0), ('Lakers vs Rockets', 86, 1)]

Colapsar categorías con similitud de cadenas

Capítulo 2

Utiliza .replace() para reducir "eur" a "Europe"

¿Qué pasa si hay demasiadas variaciones?

"EU", "eur", "Europ", "Europa", "Erope", "Evropa"...

las similitudes entre cadenas.

Colapsar categorías con coincidencia de cadenas

print(survey['state'].unique())

id          state
0      California
1            Cali
2      Calefornia
3      Calefornie
4      Californie
5       Calfornia
6      Calefernia
7        New York
8   New York City
...

categories

  state
0 California
1 New York

Derrumbar todo el estado

# For each correct category
for state in categories['state']:

  # Find potential matches in states with typoes
    matches = process.extract(state, survey['state'], limit = survey.shape[0])

    # For each potential match match
    for potential_match in matches:
       # If high similarity score
        if potential_match[1] >= 80:

          # Replace typo with correct category
          survey.loc[survey['state'] == potential_match[0], 'state'] = state

Vinculación de registros

¡Vamos a practicar!

Limpieza de datos en Python