Introdução ao curso

Trabalhando com dados categóricos em Python

Kasey Jones

Research Data Scientist

O que significa ser “categórica”?

Categórica

  • Número finito de grupos (ou categorias)
  • Normalmente fixas ou conhecidas (cor dos olhos, cabelo etc.)
  • Também chamada de dado qualitativo

Numérica

  • Também chamada de dado quantitativo
  • Expressa por um valor numérico
  • Geralmente é uma medida (altura, peso, QI etc.)
Trabalhando com dados categóricos em Python

Variáveis ordinais vs. nominais

Ordinal

  • Variáveis categóricas com ordem natural

Respostas de pesquisas vão de discordo totalmente a concordo totalmente. Essas categorias têm ordem lógica.

Nominal

  • Variáveis categóricas sem ordem natural

Às vezes, categorias como escolher uma cor da lista ("Blue", "Green", "Red", "Yellow", "purple") não têm ordem lógica.

Trabalhando com dados categóricos em Python

Nosso primeiro conjunto de dados

adult.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
 --  ------           --------------  ----- 
 0   Age              32561 non-null  int64 
 1   Workclass        32561 non-null  object
 2   fnlgwt           32561 non-null  int64 
 3   Education        32561 non-null  object
 4   Education Num    32561 non-null  int64 
 5   Marital Status   32561 non-null  object
...
1 https://www.kaggle.com/uciml/adult-census-income
Trabalhando com dados categóricos em Python

Usando describe

adult["Marital Status"].describe()
count                   32561
unique                      7
top        Married-civ-spouse
freq                    14976
Name: Marital Status, dtype: object
Trabalhando com dados categóricos em Python

Usando value_counts

adult["Marital Status"].value_counts()
 Married-civ-spouse       14976
 Never-married            10683
 Divorced                  4443
 Separated                 1025
 Widowed                    993
 Married-spouse-absent      418
 Married-AF-spouse           23
Name: Marital Status, dtype: int64
Trabalhando com dados categóricos em Python

Usando value_counts com normalize

adult["Marital Status"].value_counts(normalize=True)
 Married-civ-spouse       0.459937
 Never-married            0.328092
 Divorced                 0.136452
 Separated                0.031479
 Widowed                  0.030497
 Married-spouse-absent    0.012837
 Married-AF-spouse        0.000706
Name: Marital Status, dtype: float64
Trabalhando com dados categóricos em Python

Verificação de conhecimento

Trabalhando com dados categóricos em Python

Preparing Video For Download...