Análisis exploratorio de datos en Power BI
Jacob H. Marquez
Data Scientist at Microsoft
Definición: conjunto de todos los valores posibles de la variable y sus frecuencias asociadas.
Continuas
| Edad | Frecuencia |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Continuas
| Edad | Frecuencia |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Categóricas
| Color de pelo | Frecuencia |
|---|---|
| Rubio | 30 |
| Castaño | 50 |
| Negro | 40 |
| Rojo | 20 |
| Canoso | 20 |

Histograma con 100 bins

Histograma con 20 bins


Distribución normal

Distribución sesgada a la derecha
Desviación estándar mayor

Desviación estándar menor





Usando desviación estándar
$lower = -3 * SD$
$upper = 3 * SD$
$$
Valor atípico si
$value < lower$ O $value > upper$
Rango intercuartílico (IQR)
$lower = 25percentile-(1.5 * IQR)$
$upper = 75percentile+(1.5 * IQR)$
$$
Valor atípico si
$value < lower$ O $value > upper$
Winsorización
SI value < percentil 5 ENTONCES value = percentil 5
$$
SI value > percentil 95 ENTONCES value = percentil 95
Análisis exploratorio de datos en Power BI