Distribuciones y valores atípicos

Análisis exploratorio de datos en Power BI

Jacob H. Marquez

Data Scientist at Microsoft

¿Qué son las distribuciones?

Definición: conjunto de todos los valores posibles de la variable y sus frecuencias asociadas.

Análisis exploratorio de datos en Power BI

¿Qué son las distribuciones?

Continuas

Edad Frecuencia
18 7
19 11
20 13
21 19
22 12
Análisis exploratorio de datos en Power BI

¿Qué son las distribuciones?

Continuas

Edad Frecuencia
18 7
19 11
20 13
21 19
22 12

Categóricas

Color de pelo Frecuencia
Rubio 30
Castaño 50
Negro 40
Rojo 20
Canoso 20
Análisis exploratorio de datos en Power BI

¿Qué son los histogramas?

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Tiene una cola estrecha a ambos lados de una gran masa central.

Análisis exploratorio de datos en Power BI

¿Qué son los histogramas? - bins

Histograma con 100 bins

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Con 100 bins es más suave y muestra más detalle.

Histograma con 20 bins

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Con menos bins es más rígido y en forma de caja.

Análisis exploratorio de datos en Power BI

Leer histogramas: centralidad y sesgo

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Hay una gran masa de observaciones en el centro y menos hacia los extremos.

Distribución normal

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Hay una gran masa de observaciones a la izquierda y se estrecha hacia la derecha.

Distribución sesgada a la derecha

Análisis exploratorio de datos en Power BI

Leer histogramas: dispersión

Desviación estándar mayor

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Hay una gran masa de observaciones en el centro y menos hacia los extremos.

Desviación estándar menor

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Es más estrecho, casi en forma de aguja, ya que la desviación estándar es pequeña.

Análisis exploratorio de datos en Power BI

Leer histogramas: percentiles

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Hay un área verde desde el centro hacia la izquierda que representa el percentil 50.

Análisis exploratorio de datos en Power BI

Leer histogramas: percentiles 25 y 75

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Hay dos áreas verdes: desde el percentil 25 hacia la izquierda y desde el percentil 75 hacia la derecha.

Análisis exploratorio de datos en Power BI

Leer histogramas: rango intercuartílico

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Hay un área verde del percentil 25 al 75 que representa el rango intercuartílico.

Análisis exploratorio de datos en Power BI

¿Qué es un valor atípico?

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y. Hay áreas verdes en ambos extremos que resaltan posibles valores atípicos.

Análisis exploratorio de datos en Power BI

Cómo detectar valores atípicos

Usando desviación estándar

$lower = -3 * SD$

$upper = 3 * SD$

$$

Valor atípico si

$value < lower$ O $value > upper$

Rango intercuartílico (IQR)

$lower = 25percentile-(1.5 * IQR)$

$upper = 75percentile+(1.5 * IQR)$

$$

Valor atípico si

$value < lower$ O $value > upper$

Análisis exploratorio de datos en Power BI

Cómo tratar valores atípicos

  1. Eliminar observaciones
  2. Imputación

Winsorización

SI value < percentil 5 ENTONCES value = percentil 5

$$

SI value > percentil 95 ENTONCES value = percentil 95

Análisis exploratorio de datos en Power BI

¡Vamos a practicar!

Análisis exploratorio de datos en Power BI

Preparing Video For Download...