Data opschonen en benaderen

Werken met categorische data in Python

Kasey Jones

Research Data Scientist

Mogelijke problemen met categorische data

1) Inconsistente waarden: "Ham", "ham", " Ham"

2) Spelfouten: "Ham", "Hma"

3) Verkeerde dtype: df['Our Column'].dtype

dtype('O')
Werken met categorische data in Python

Problemen opsporen

Gebruik één van:

  • Series.cat.categories
  • Series.value_counts()
dogs["get_along_cats"].value_counts()
No     2503
yes     275
no      156
Noo       2
 NO       1
Werken met categorische data in Python

Problemen oplossen: witruimte

Spaties verwijderen: .strip()

dogs["get_along_cats"] = dogs["get_along_cats"].str.strip()

Controleer de frequenties:

dogs["get_along_cats"].value_counts()
No     2503
yes     275
no      156
Noo       2
NO        1   # < ---- geen spaties meer
Werken met categorische data in Python

Problemen oplossen: hoofdletters

Hoofdletters/kleine letters: .title(), .upper(), .lower()

dogs["get_along_cats"] = dogs["get_along_cats"].str.title()

Controleer de frequenties:

dogs["get_along_cats"].value_counts()
No     2660 
Yes     275
Noo       2
Werken met categorische data in Python

Problemen oplossen: spelfouten

Typfout herstellen met .replace()

replace_map = {"Noo": "No"}
dogs["get_along_cats"].replace(replace_map, inplace=True)

Controleer de frequenties:

dogs["get_along_cats"].value_counts()
No     2662
Yes     275
Werken met categorische data in Python

Het gegevenstype controleren

dtype controleren

dogs["get_along_cats"].dtype
dtype('O')

Terugzetten naar categorie

dogs["get_along_cats"] = dogs["get_along_cats"].astype("category")
Werken met categorische data in Python

De str-accessor gebruiken

Zoeken naar een string

dogs["breed"].str.contains("Shepherd", regex=False)
0        False
1        False
2        False
...
2935     False
2936     True
Werken met categorische data in Python

Data benaderen met loc

Series-waarden op basis van categorie opvragen

dogs.loc[dogs["get_along_cats"] == "Yes", "size"]

Aantal waarden in Series:

dogs.loc[dogs["get_along_cats"] == "Yes", "size"].value_counts(sort=False)
small      69
medium    169
large      37
Werken met categorische data in Python

Oefenen met schoonmaken en benaderen

Werken met categorische data in Python

Preparing Video For Download...