Contraintes d'unicité

Nettoyage des données en Python

Adel Nehme

VP of AI Curriculum, DataCamp

Que sont les valeurs en double ?

Toutes les colonnes présentent les mêmes valeurs

first_name	last_name	adresse	taille	poids
Justin	Saddlemyer	Boulevard du Jardin Botanique 3, Bruxelles	193 cm	87 kg
Justin	Saddlemyer	Boulevard du Jardin Botanique 3, Bruxelles	193 cm	87 kg

Que sont les valeurs en double ?

La plupart des colonnes présentent les mêmes valeurs

first_name	last_name	adresse	taille	poids
Justin	Saddlemyer	Boulevard du Jardin Botanique 3, Bruxelles	193 cm	87 kg
Justin	Saddlemyer	Boulevard du Jardin Botanique 3, Bruxelles	194 cm	87 kg

Pourquoi se produisent-elles ?

duplicate_1

Pourquoi se produisent-elles ?

duplicate_2

Pourquoi se produisent-elles ?

duplicate_3

Comment identifier les valeurs en double ?

# Print the header
height_weight.head()

  first_name last_name                       address  height  weight
0       Lane     Reese              534-1559 Nam St.     181      64
1       Ivor    Pierce             102-3364 Non Road     168      66
2      Roary    Gibson   P.O. Box 344, 7785 Nisi Ave     191      99
3    Shannon    Little  691-2550 Consectetuer Street     185      65
4      Abdul       Fry                4565 Risus St.     169      65

Comment identifier les valeurs en double ?

# Get duplicates across all columns
duplicates = height_weight.duplicated()
print(duplicates)

1       False
...     ....
22      True
23      False
...     ...

Comment identifier les valeurs en double ?

# Get duplicate rows
duplicates = height_weight.duplicated()
height_weight[duplicates]

    first_name last_name                               address  height  weight
100       Mary     Colon                           4674 Ut Rd.     179      75
101       Ivor    Pierce                     102-3364 Non Road     168      88
102       Cole    Palmer                       8366 At, Street     178      91
103    Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     196      83

Comment identifier les lignes en double ?

La méthode .duplicated()

subset : Liste des noms de colonnes à vérifier pour détecter les doublons.

keep : Conserver les premières valeurs en double ('first'), les dernières ('last') ou toutes (False).

# Column names to check for duplication
column_names = ['first_name','last_name','address']
duplicates = height_weight.duplicated(subset = column_names, keep = False)

Comment identifier les lignes en double ?

# Output duplicate values
height_weight[duplicates]

    first_name last_name                               address  height  weight
1         Ivor    Pierce                     102-3364 Non Road     168      66
22        Cole    Palmer                       8366 At, Street     178      91
28     Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     195      83
37        Mary     Colon                           4674 Ut Rd.     179      75
100       Mary     Colon                           4674 Ut Rd.     179      75
101       Ivor    Pierce                     102-3364 Non Road     168      88
102       Cole    Palmer                       8366 At, Street     178      91
103    Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     196      83

Comment identifier les lignes en double ?

# Output duplicate values
height_weight[duplicates].sort_values(by = 'first_name')

    first_name last_name                               address  height  weight
22        Cole    Palmer                       8366 At, Street     178      91
102       Cole    Palmer                       8366 At, Street     178      91
28     Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     195      83
103    Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     196      83
1         Ivor    Pierce                     102-3364 Non Road     168      66
101       Ivor    Pierce                     102-3364 Non Road     168      88
37        Mary     Colon                           4674 Ut Rd.     179      75
100       Mary     Colon                           4674 Ut Rd.     179      75

Comment identifier les lignes en double ?

# Output duplicate values
height_weight[duplicates].sort_values(by = 'first_name')

Comment identifier les lignes en double ?

# Output duplicate values
height_weight[duplicates].sort_values(by = 'first_name')

Comment traiter les valeurs en double ?

# Output duplicate values
height_weight[duplicates].sort_values(by = 'first_name')

Comment traiter les valeurs en double ?

La méthode .drop_duplicates()

subset : Liste des noms de colonnes à vérifier pour détecter les doublons.

keep : Conserver les premières valeurs en double ('first'), les dernières ('last') ou toutes (False).

inplace : Supprimer les lignes en double directement dans le DataFrame sans créer de nouvel objet (True).

# Drop duplicates
height_weight.drop_duplicates(inplace = True)

Comment traiter les valeurs en double ?

# Output duplicate values
column_names = ['first_name','last_name','address']
duplicates = height_weight.duplicated(subset = column_names, keep = False)
height_weight[duplicates].sort_values(by = 'first_name')

    first_name last_name                               address  height  weight
28     Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     195      83
103    Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     196      83
1         Ivor    Pierce                     102-3364 Non Road     168      66
101       Ivor    Pierce                     102-3364 Non Road     168      88

Comment traiter les valeurs en double ?

# Output duplicate values
column_names = ['first_name','last_name','address']
duplicates = height_weight.duplicated(subset = column_names, keep = False)
height_weight[duplicates].sort_values(by = 'first_name')

Comment traiter les valeurs en double ?

Les méthodes .groupby() et .agg()

# Group by column names and produce statistical summaries
column_names = ['first_name','last_name','address']
summaries = {'height': 'max', 'weight': 'mean'}
height_weight = height_weight.groupby(by = column_names).agg(summaries).reset_index()

# Make sure aggregation is done
duplicates = height_weight.duplicated(subset = column_names, keep = False)
height_weight[duplicates].sort_values(by = 'first_name')

first_name    last_name    address    height    weight

Passons à la pratique !

Nettoyage des données en Python