Utilisation de données catégorielles dans Python
Kasey Jones
Research Data Scientist
1) Valeurs incohérentes : "Ham", "ham", " Ham"
2) Fautes d’orthographe : "Ham", "Hma"
3) Mauvais dtype : df['Our Column'].dtype
dtype('O')
Utiliser au choix :
Series.cat.categoriesSeries.value_counts()dogs["get_along_cats"].value_counts()
No 2503
yes 275
no 156
Noo 2
NO 1
Supprimer les espaces : .strip()
dogs["get_along_cats"] = dogs["get_along_cats"].str.strip()
Vérifier les fréquences :
dogs["get_along_cats"].value_counts()
No 2503
yes 275
no 156
Noo 2
NO 1 # < ---- plus d’espaces
Casse : .title(), .upper(), .lower()
dogs["get_along_cats"] = dogs["get_along_cats"].str.title()
Vérifier les fréquences :
dogs["get_along_cats"].value_counts()
No 2660
Yes 275
Noo 2
Corriger une faute avec .replace()
replace_map = {"Noo": "No"}
dogs["get_along_cats"].replace(replace_map, inplace=True)
Vérifier les fréquences :
dogs["get_along_cats"].value_counts()
No 2662
Yes 275
Vérifier le dtype
dogs["get_along_cats"].dtype
dtype('O')
Revenir à une catégorie
dogs["get_along_cats"] = dogs["get_along_cats"].astype("category")
Rechercher une chaîne
dogs["breed"].str.contains("Shepherd", regex=False)
0 False
1 False
2 False
...
2935 False
2936 True
Accéder aux valeurs d’une Series par catégorie
dogs.loc[dogs["get_along_cats"] == "Yes", "size"]
Comptage des valeurs de la Series :
dogs.loc[dogs["get_along_cats"] == "Yes", "size"].value_counts(sort=False)
small 69
medium 169
large 37
Utilisation de données catégorielles dans Python