Distribuições e outliers

Análise Exploratória de Dados no Power BI

Jacob H. Marquez

Data Scientist at Microsoft

O que são distribuições?

Definição: conjunto de todos os valores possíveis da variável e suas frequências.

Análise Exploratória de Dados no Power BI

O que são distribuições?

Contínua

Idade Frequência
18 7
19 11
20 13
21 19
22 12
Análise Exploratória de Dados no Power BI

O que são distribuições?

Contínua

Idade Frequência
18 7
19 11
20 13
21 19
22 12

Categórica

Cor do cabelo Frequência
Loiro 30
Castanho 50
Preto 40
Ruivo 20
Grisalho 20
Análise Exploratória de Dados no Power BI

O que são histogramas?

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Há uma cauda estreita em cada lado de uma grande massa no meio.

Análise Exploratória de Dados no Power BI

O que são histogramas? - bins

Histograma com 100 bins

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Com 100 bins, o histograma fica mais suave e detalhado.

Histograma com 20 bins

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Com menos bins, o histograma fica mais rígido e em blocos.

Análise Exploratória de Dados no Power BI

Lendo histogramas - centralidade e assimetria

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Há grande concentração no centro e menos nas extremidades.

Distribuição normal

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Há grande concentração à esquerda e vai afunilando à direita.

Distribuição com cauda à direita

Análise Exploratória de Dados no Power BI

Lendo histogramas - dispersão

Desvio padrão maior

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Há grande concentração no centro e menos nas extremidades.

Desvio padrão menor

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. É mais estreito, quase em forma de agulha, pois o desvio padrão é pequeno.

Análise Exploratória de Dados no Power BI

Lendo histogramas - percentis

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Há uma área verde sombreada do centro para a esquerda representando o 50º percentil.

Análise Exploratória de Dados no Power BI

Lendo histogramas - 25º e 75º percentis

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Há duas áreas verdes: da esquerda até o 25º percentil e da direita a partir do 75º percentil.

Análise Exploratória de Dados no Power BI

Lendo histogramas - intervalo interquartil

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Há uma área verde do 25º ao 75º percentil representando o intervalo interquartil.

Análise Exploratória de Dados no Power BI

O que é um outlier?

Um histograma de alturas de pessoas, com valores de altura no eixo x e número de observações no eixo y. Há áreas verdes nas duas extremidades destacando possíveis outliers.

Análise Exploratória de Dados no Power BI

Como encontrar outliers

Usando desvio padrão

$lower = -3 * SD$

$upper = 3 * SD$

$$

Outlier quando

$value < lower$ OU $value > upper$

Intervalo interquartil (IQR)

$lower = 25percentile-(1.5 * IQR)$

$upper = 75percentile+(1.5 * IQR)$

$$

Outlier quando

$value < lower$ OU $value > upper$

Análise Exploratória de Dados no Power BI

Tratando outliers

  1. Remover observações
  2. Imputação

Winsorização

SE value < 5th percentile ENTÃO value = 5th percentile

$$

SE value > 95th percentile ENTÃO value = 95th percentile

Análise Exploratória de Dados no Power BI

Vamos praticar!

Análise Exploratória de Dados no Power BI

Preparing Video For Download...