Comparar cadenas

Limpieza de datos en Python

Adel Nehme

VP of AI Curriculum, DataCamp

En este capítulo,

 

 

 

 

 

 

Capítulo 4 - Vinculación de registros

Limpieza de datos en Python

Distancia mínima de edición

Menor cantidad posible de pasos necesarios para pasar de una cadena a otra.

Limpieza de datos en Python

Distancia mínima de edición

Menor cantidad posible de pasos necesarios para pasar de una cadena a otra.

Limpieza de datos en Python

Distancia mínima de edición

Limpieza de datos en Python

Distancia mínima de edición

Distancia mínima de edición hasta ahora: 2

Limpieza de datos en Python

Distancia mínima de edición

Distancia mínima de edición 5**

Limpieza de datos en Python

Distancia mínima de edición

 

Limpieza de datos en Python

Algoritmos de distancia mínima de edición

Algoritmo]( =80) Operaciones
Damerau-Levenshtein inserción, sustitución, eliminación, transposición
Levenshtein inserción, sustitución, eliminación
Hamming solo sustitución
Distancia Jaro solo transposición
... ...

 

Paquetes posibles: nltk, thefuzz, textdistance..

Limpieza de datos en Python

Algoritmos de distancia mínima de edición

Algoritmo]( =80) Operaciones
Damerau-Levenshtein inserción, sustitución, eliminación, transposición
Levenshtein inserción, sustitución, eliminación
Hamming solo sustitución
Distancia Jaro solo transposición
... ...

 

Posibles paquetes: thefuzz

Limpieza de datos en Python

Comparación simple de cadenas

# Lets us compare between two strings
from thefuzz import fuzz

# Compare reeding vs reading fuzz.WRatio('Reeding', 'Reading')
86
Limpieza de datos en Python

Cadenas parciales y diferentes ordenaciones

# Partial string comparison
fuzz.WRatio('Houston Rockets', 'Rockets')
90
# Partial string comparison with different order
fuzz.WRatio('Houston Rockets vs Los Angeles Lakers', 'Lakers vs Rockets')
86
Limpieza de datos en Python

Comparación con arreglos

# Import process
from thefuzz import process

# Define string and array of possible matches
string = "Houston Rockets vs Los Angeles Lakers"
choices = pd.Series(['Rockets vs Lakers', 'Lakers vs Rockets', 
                     'Houson vs Los Angeles', 'Heat vs Bulls'])

process.extract(string, choices, limit = 2)
[('Rockets vs Lakers', 86, 0), ('Lakers vs Rockets', 86, 1)]
Limpieza de datos en Python

Colapsar categorías con similitud de cadenas

Capítulo 2

Utiliza .replace() para reducir "eur" a "Europe"

 

¿Qué pasa si hay demasiadas variaciones?

"EU", "eur", "Europ", "Europa", "Erope", "Evropa"...

 

las similitudes entre cadenas.

Limpieza de datos en Python

Colapsar categorías con coincidencia de cadenas

print(survey['state'].unique())
id          state
0      California
1            Cali
2      Calefornia
3      Calefornie
4      Californie
5       Calfornia
6      Calefernia
7        New York
8   New York City
...
categories
  state
0 California
1 New York
Limpieza de datos en Python

Derrumbar todo el estado

# For each correct category
for state in categories['state']:

# Find potential matches in states with typoes matches = process.extract(state, survey['state'], limit = survey.shape[0])
# For each potential match match for potential_match in matches: # If high similarity score if potential_match[1] >= 80:
# Replace typo with correct category survey.loc[survey['state'] == potential_match[0], 'state'] = state
Limpieza de datos en Python

Vinculación de registros

Vinculación de registros

Limpieza de datos en Python

¡Vamos a practicar!

Limpieza de datos en Python

Preparing Video For Download...