Análise Exploratória de Dados no Power BI
Jacob H. Marquez
Data Scientist at Microsoft
Definição: conjunto de todos os valores possíveis da variável e suas frequências.
Contínua
| Idade | Frequência |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Contínua
| Idade | Frequência |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Categórica
| Cor do cabelo | Frequência |
|---|---|
| Loiro | 30 |
| Castanho | 50 |
| Preto | 40 |
| Ruivo | 20 |
| Grisalho | 20 |

Histograma com 100 bins

Histograma com 20 bins


Distribuição normal

Distribuição com cauda à direita
Desvio padrão maior

Desvio padrão menor





Usando desvio padrão
$lower = -3 * SD$
$upper = 3 * SD$
$$
Outlier quando
$value < lower$ OU $value > upper$
Intervalo interquartil (IQR)
$lower = 25percentile-(1.5 * IQR)$
$upper = 75percentile+(1.5 * IQR)$
$$
Outlier quando
$value < lower$ OU $value > upper$
Winsorização
SE value < 5th percentile ENTÃO value = 5th percentile
$$
SE value > 95th percentile ENTÃO value = 95th percentile
Análise Exploratória de Dados no Power BI