Variables catégorielles

Nettoyage des données en Python

Adel Nehme

Content Developer @DataCamp

Quels types d'erreurs pourrions-nous rencontrer ?

I) Incohérence des valeurs

Champs incohérents : 'married', 'Maried', 'UNMARRIED', 'not married'.
_Espaces blancs à la fin : _'married ', ' married '…

II) Réduire un nombre trop important de catégories

Création de nouveaux groupes : catégories 0-20K, 20-40K … à partir des données sur le revenu continu des ménages
Mappage des groupes vers de nouveaux groupes : Mappage des catégories de revenus des ménages en 2 'rich', 'poor'

III) Vérifier que les données sont de type category (voir chapitre 1)

Cohérence des valeurs

Capitalisation : 'married', 'Married', 'UNMARRIED', 'unmarried'..

# Get marriage status column
marriage_status = demographics['marriage_status']
marriage_status.value_counts()

unmarried    352
married      268
MARRIED      204
UNMARRIED    176
dtype: int64

Cohérence des valeurs

# Get value counts on DataFrame
marriage_status.groupby('marriage_status').count()

                 household_income  gender
marriage_status                          
MARRIED                       204     204
UNMARRIED                     176     176
married                       268     268
unmarried                     352     352

Cohérence des valeurs

# Capitalize

marriage_status['marriage_status'] = marriage_status['marriage_status'].str.upper()
marriage_status['marriage_status'].value_counts()

UNMARRIED    528
MARRIED      472

# Lowercase

marriage_status['marriage_status'] = marriage_status['marriage_status'].str.lower()
marriage_status['marriage_status'].value_counts()

unmarried    528
married      472

Cohérence des valeurs

Espaces à la fin : 'married ', 'married', 'unmarried', ' unmarried'…

# Get marriage status column
marriage_status = demographics['marriage_status']
marriage_status.value_counts()

 unmarried   352
unmarried    268
married      204
married      176
dtype: int64

Cohérence des valeurs

# Strip all spaces
demographics = demographics['marriage_status'].str.strip()
demographics['marriage_status'].value_counts()

unmarried    528
married      472

Regrouper les données par catégories

Créer des catégories à partir des données : colonne income_group à partir de la colonne income.

# Using qcut()
import pandas as pd
group_names = ['0-200K', '200K-500K', '500K+']
demographics['income_group'] = pd.qcut(demographics['household_income'], q = 3, 
                                       labels = group_names)
# Print income_group column
demographics[['income_group', 'household_income']]

     category  household_income
0   200K-500K  189243
1       500K+  778533
..

Regrouper les données par catégories

Créer des catégories à partir des données : colonne income_group à partir de la colonne income.

# Using cut() - create category ranges and names
ranges = [0,200000,500000,np.inf]
group_names = ['0-200K', '200K-500K', '500K+']
# Create income group column
demographics['income_group'] = pd.cut(demographics['household_income'], bins=ranges, 
                                      labels=group_names)
demographics[['income_group', 'household_income']]

     category  Income
0      0-200K  189243
1       500K+  778533

Regrouper les données par catégories

Réduisez le nombre de catégories : réduire le nombre de catégories dans la colonne catégorielle.

La colonne operating_system est : 'Microsoft', 'MacOS', 'IOS', 'Android', 'Linux'

La colonne operating_system devrait devenir : 'DesktopOS', 'MobileOS'

# Create mapping dictionary and replace
mapping = {'Microsoft':'DesktopOS', 'MacOS':'DesktopOS', 'Linux':'DesktopOS',
           'IOS':'MobileOS', 'Android':'MobileOS'}
devices['operating_system'] = devices['operating_system'].replace(mapping)
devices['operating_system'].unique()

array(['DesktopOS', 'MobileOS'], dtype=object)

Passons à la pratique !

Nettoyage des données en Python