Considerações sobre dados categóricos

Análise Exploratória de Dados em Python

George Boorman

Curriculum Manager, DataCamp

Por que fazer uma AED?

  • Detectar padrões e relações

 

 

  • Gerar perguntas ou hipóteses

 

 

  • Preparar dados para aprendizado de máquina

Ponto de interrogação em um letreiro de néon vermelho

1 Crédito da imagem: https://unsplash.com/@simonesecci
Análise Exploratória de Dados em Python

Dados representativos

  • A amostra representa a população

Por exemplo:

  • Educação versus renda nos EUA
    • Não pode usar dados da França

Bandeira dos EUA

Bandeira da França

1 Créditos da imagem: https://unsplash.com/@cristina_glebova; https://unsplash.com/@nimbus_vulpis
Análise Exploratória de Dados em Python

Classes categóricas

  • Classes = rótulos

 

  • Pesquisar atitudes das pessoas em relação ao casamento
    • Estado civil
      • Solteiro
      • Casado
      • Divorciado
Análise Exploratória de Dados em Python

Desequilíbrio de classes

gráfico de barras mostrando o número de estados civis em uma amostra - 700 divorciados, 250 solteiros e 50 casados

Análise Exploratória de Dados em Python

Frequência de classes

print(planes["Destination"].value_counts())
Cochin       4391
Banglore     2773
Delhi        1219
New Delhi     888
Hyderabad     673
Kolkata       369
Name: Destination, dtype: int64
Análise Exploratória de Dados em Python

Frequência de classes relativa

  • 40% dos voos internos na Índia têm como destino Delhi
planes["Destination"].value_counts(normalize=True)
Cochin       0.425773
Banglore     0.268884
Delhi        0.118200
New Delhi    0.086105
Hyderabad    0.065257
Kolkata      0.035780
Name: Destination, dtype: float64
  • A nossa amostra é representativa da população (voos internos indianos)?
Análise Exploratória de Dados em Python

Tabulação cruzada

Chame pd-ponto-crosstab

pd.crosstab(
Análise Exploratória de Dados em Python

Selecionar índice

Escolha a coluna que você quer usar como índice

pd.crosstab(planes["Source"],
Análise Exploratória de Dados em Python

Selecionar colunas

Selecione a coluna

pd.crosstab(planes["Source"], planes["Destination"])
Análise Exploratória de Dados em Python

Tabulação cruzada

Destination  Banglore  Cochin  Delhi  Hyderabad  Kolkata  New Delhi
Source                                                             
Banglore            0       0   1199          0        0        868
Chennai             0       0      0          0      364          0
Delhi               0    4318      0          0        0          0
Kolkata          2720       0      0          0        0          0
Mumbai              0       0      0        662        0          0
Análise Exploratória de Dados em Python

Ampliar a tabulação cruzada

Source Destination Median Price (IDR)
Bangalore Delhi 4.232,21
Bangalore Nova Deli 12.114,56
Chennai Calcutá 3.859,76
Delhi Cochin 9.987,63
Calcutá Bangalore 9.654,21
Mumbai Hyderabad 3.431,97
Análise Exploratória de Dados em Python

Valores agregados com pd.crosstab()

pd.crosstab(planes["Source"], planes["Destination"],

values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Análise Exploratória de Dados em Python

Comparar amostra com população

Source Destination Median Price (IDR) Median Price (dataset)
Bangalore Delhi 4.232,21 4.823,0
Bangalore Nova Deli 12.114,56 10.976,50
Chennai Calcutá 3.859,76 3.850,0
Delhi Cochin 9.987,63 10.260,0
Calcutá Bangalore 9.654,21 9.345.0
Mumbai Hyderabad 3.431,97 3.342,0
Análise Exploratória de Dados em Python

Vamos praticar!

Análise Exploratória de Dados em Python

Preparing Video For Download...