Nettoyage des données en Python
Adel Nehme
VP of AI Curriculum, DataCamp

Le nombre minimal d'étapes nécessaires pour passer d'une chaîne à une autre

Le nombre minimal d'étapes nécessaires pour passer d'une chaîne à une autre


Distance d'édition minimale jusqu'à présent : 2

Distance minimale d’édition : 5

| Algorithme | Opérations |
|---|---|
| Damerau-Levenshtein | insertion, remplacement, suppression, transposition |
| Levenshtein | insertion, remplacement, suppression |
| Hamming | substitution uniquement |
| Distance de Jaro | transposition uniquement |
| … | … |
Packages disponibles : nltk, thefuzz, textdistance…
| Algorithme | Opérations |
|---|---|
| Damerau-Levenshtein | insertion, remplacement, suppression, transposition |
| Levenshtein | insertion, remplacement, suppression |
| Hamming | substitution uniquement |
| Distance de Jaro | transposition uniquement |
| … | … |
Packages disponibles : thefuzz
# Lets us compare between two strings from thefuzz import fuzz# Compare reeding vs reading fuzz.WRatio('Reeding', 'Reading')
86
# Partial string comparison
fuzz.WRatio('Houston Rockets', 'Rockets')
90
# Partial string comparison with different order
fuzz.WRatio('Houston Rockets vs Los Angeles Lakers', 'Lakers vs Rockets')
86
# Import process
from thefuzz import process
# Define string and array of possible matches
string = "Houston Rockets vs Los Angeles Lakers"
choices = pd.Series(['Rockets vs Lakers', 'Lakers vs Rockets',
'Houson vs Los Angeles', 'Heat vs Bulls'])
process.extract(string, choices, limit = 2)
[('Rockets vs Lakers', 86, 0), ('Lakers vs Rockets', 86, 1)]
Chapitre 2
Utilisez .replace() pour réduire "eur" en "Europe"
Que faire s'il existe un nombre excessif de variations ?
"EU", "eur", "Europ", "Europa", "Erope", "Evropa"…
Similitude de chaînes !
print(survey['state'].unique())
id state
0 California
1 Cali
2 Calefornia
3 Calefornie
4 Californie
5 Calfornia
6 Calefernia
7 New York
8 New York City
...
categories
state
0 California
1 New York
# For each correct category for state in categories['state']:# Find potential matches in states with typoes matches = process.extract(state, survey['state'], limit = survey.shape[0])# For each potential match match for potential_match in matches: # If high similarity score if potential_match[1] >= 80:# Replace typo with correct category survey.loc[survey['state'] == potential_match[0], 'state'] = state

Nettoyage des données en Python