O que é análise exploratória de dados?

Análise Exploratória de Dados no Power BI

Jacob H. Marquez

Data Scientist at Microsoft

O que é análise exploratória de dados?

"Uma abordagem para analisar conjuntos de dados e resumir suas principais características, geralmente com gráficos estatísticos e outras visualizações."

1 https://en.wikipedia.org/wiki/Exploratory_data_analysis
Análise Exploratória de Dados no Power BI

Seis etapas da AED

  1. Entender a estrutura dos dados

  2. Identificar dados ausentes

  3. Descrever com estatísticas descritivas e distribuições

  4. Identificar outliers

  5. Examinar e quantificar relações entre variáveis

  6. Formular hipóteses

Análise Exploratória de Dados no Power BI

Seis etapas da AED

  1. Entender a estrutura dos dados

  2. Identificar dados ausentes

  3. Descrever com estatísticas descritivas e distribuições

  4. Identificar outliers

  5. Examinar e quantificar relações entre variáveis

  6. Formular hipóteses

Análise Exploratória de Dados no Power BI

1. Entendendo a estrutura dos dados

Contínuas

Variáveis numéricas que podem assumir infinitos valores

  • Número de estrelas no espaço
  • Taxas de clique (CTR)
  • Distância entre duas cidades

Categóricas

Variáveis não numéricas, geralmente texto, com dois ou mais grupos

  • Tipos de casa
  • País
  • Empresa
Análise Exploratória de Dados no Power BI

2. Identificando dados ausentes

 

Ausência ao acaso (MAR)

Uma matriz 9 por 4 com conjuntos de três linhas agrupadas para três cidades: Seattle, Nova York e Paris. Há valores em polegadas de chuva em 30 células e 6 estão em branco ao acaso nos três grupos de cidades.

 

Ausência não ao acaso (MNAR)

Uma matriz 9 por 4 com conjuntos de três linhas agrupadas para três cidades: Seattle, Nova York e Paris. Há valores em polegadas de chuva em 30 células e 4 estão em branco aleatoriamente apenas em Seattle.

Análise Exploratória de Dados no Power BI

2. Tratando dados ausentes

 

Uma matriz 9 por 4 com conjuntos de três linhas agrupadas para três cidades: Seattle, Nova York e Paris. Há valores em polegadas de chuva em 30 células e 4 estão em branco aleatoriamente apenas em Seattle.

A mesma matriz 9 por 4, exceto com a linha de cima removida, representando a remoção das células em branco da matriz.

A mesma matriz 9 por 4, exceto que a linha de cima agora tem valores, representando imputar as células em branco com a mediana.

Análise Exploratória de Dados no Power BI

3. Descrevendo os dados

  • Mínimo
  • Máximo
  • Média: soma dos valores dividida pelo número de observações
  • Mediana: valor central do conjunto
  • Desvio padrão: média do desvio em relação à média em todos os pontos
Análise Exploratória de Dados no Power BI

3. Descreva com distribuições

Um histograma de alturas de pessoas, com alturas no eixo x e número de observações no eixo y.

  • Mediana e média são iguais
  • Curva simétrica
Análise Exploratória de Dados no Power BI

3. Descrevendo os dados com distribuições

Um histograma de renda domiciliar, com valores de renda no eixo x e número de observações no eixo y. O histograma é largo à esquerda e afina à direita.

  • Mediana < média
  • Assimetria à direita: cauda à direita

Um histograma de tempo online, com valores de tempo no eixo x e número de observações no eixo y. O histograma é estreito à esquerda e alarga à direita.

  • Mediana > média
  • Assimetria à esquerda: cauda à esquerda
Análise Exploratória de Dados no Power BI

O conjunto de dados: anúncios do Airbnb

Imagem do conjunto de dados do Airbnb com cinco colunas: listing_id, host_id, host_since (coluna de data), city e price.

Análise Exploratória de Dados no Power BI

Vamos praticar!

Análise Exploratória de Dados no Power BI

Preparing Video For Download...