Cursusintroductie

Werken met categorische data in Python

Kasey Jones

Research Data Scientist

Wat betekent “categorisch”?

Categorisch

  • Eindig aantal groepen (categorieën)
  • Meestal vaste/bekende categorieën (oogkleur, haarkleur, enz.)
  • Ook wel kwalitatieve data

Numeriek

  • Ook wel kwantitatieve data
  • Uitgedrukt als een getal
  • Vaak een meting (lengte, gewicht, IQ, enz.)
Werken met categorische data in Python

Ordinale vs. nominale variabelen

Ordinaal

  • Categorische variabelen met een natuurlijke volgorde

Enquêteresponsopties lopen vaak van helemaal oneens tot helemaal eens. Deze categorieën hebben een logische volgorde.

Nominaal

  • Categorische variabelen zonder natuurlijke volgorde

Soms hebben categorieën, zoals een kleur kiezen uit een lijst (“Blue”, “Green”, “Red”, “Yellow”, “purple”), geen logische volgorde.

Werken met categorische data in Python

Onze eerste dataset

adult.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
 --  ------           --------------  ----- 
 0   Age              32561 non-null  int64 
 1   Workclass        32561 non-null  object
 2   fnlgwt           32561 non-null  int64 
 3   Education        32561 non-null  object
 4   Education Num    32561 non-null  int64 
 5   Marital Status   32561 non-null  object
...
1 https://www.kaggle.com/uciml/adult-census-income
Werken met categorische data in Python

Describe gebruiken

adult["Marital Status"].describe()
count                   32561
unique                      7
top        Married-civ-spouse
freq                    14976
Name: Marital Status, dtype: object
Werken met categorische data in Python

Value counts gebruiken

adult["Marital Status"].value_counts()
 Married-civ-spouse       14976
 Never-married            10683
 Divorced                  4443
 Separated                 1025
 Widowed                    993
 Married-spouse-absent      418
 Married-AF-spouse           23
Name: Marital Status, dtype: int64
Werken met categorische data in Python

Value counts met normalize

adult["Marital Status"].value_counts(normalize=True)
 Married-civ-spouse       0.459937
 Never-married            0.328092
 Divorced                 0.136452
 Separated                0.031479
 Widowed                  0.030497
 Married-spouse-absent    0.012837
 Married-AF-spouse        0.000706
Name: Marital Status, dtype: float64
Werken met categorische data in Python

Kennischeck

Werken met categorische data in Python

Preparing Video For Download...