¿Qué es el análisis exploratorio de datos?

Análisis exploratorio de datos en Power BI

Jacob H. Marquez

Data Scientist at Microsoft

¿Qué es el análisis exploratorio de datos?

"Un enfoque para analizar conjuntos de datos y resumir sus características principales, a menudo con gráficos estadísticos y otras visualizaciones."

1 https://en.wikipedia.org/wiki/Exploratory_data_analysis
Análisis exploratorio de datos en Power BI

Seis pasos para EDA

  1. Entender la estructura de los datos

  2. Identificar datos faltantes

  3. Describir con estadísticas descriptivas y distribuciones

  4. Identificar valores atípicos

  5. Examinar y cuantificar relaciones entre variables

  6. Formular hipótesis

Análisis exploratorio de datos en Power BI

Seis pasos para EDA

  1. Entender la estructura de los datos

  2. Identificar datos faltantes

  3. Describir con estadísticas descriptivas y distribuciones

  4. Identificar valores atípicos

  5. Examinar y cuantificar relaciones entre variables

  6. Formular hipótesis

Análisis exploratorio de datos en Power BI

1. Entender la estructura de los datos

Continuas

Variables numéricas que pueden tomar un conjunto infinito de valores

  • Número de estrellas en el espacio
  • CTR (tasa de clics)
  • Distancia entre dos ciudades

Categóricas

Variables no numéricas, normalmente texto, con dos o más grupos

  • Tipos de vivienda
  • País
  • Empresa
Análisis exploratorio de datos en Power BI

2. Identificar datos faltantes

 

Faltantes al azar

Una matriz de nueve por cuatro con conjuntos de tres filas agrupadas para tres ciudades: Seattle, Nueva York y París. Hay valores que representan pulgadas de lluvia en 30 celdas y 6 están en blanco al azar en los tres grupos de ciudades.

 

Faltantes no al azar

Una matriz de nueve por cuatro con conjuntos de tres filas agrupadas para tres ciudades: Seattle, Nueva York y París. Hay valores que representan pulgadas de lluvia en 30 celdas y 4 están en blanco aleatoriamente solo en Seattle.

Análisis exploratorio de datos en Power BI

2. Tratar los datos faltantes

 

Una matriz de nueve por cuatro con conjuntos de tres filas agrupadas para tres ciudades: Seattle, Nueva York y París. Hay valores que representan pulgadas de lluvia en 30 celdas y 4 están en blanco aleatoriamente solo en Seattle.

La misma matriz de nueve por cuatro excepto que se quitó la fila superior, para representar eliminar las celdas en blanco de la matriz.

La misma matriz de nueve por cuatro excepto que la fila superior ahora tiene valores, para representar imputar las celdas en blanco con la mediana.

Análisis exploratorio de datos en Power BI

3. Describir los datos

  • Mínimo
  • Máximo
  • Media: suma de todos los valores dividida por el número de observaciones
  • Mediana: el valor central del rango
  • Desviación típica: media de la diferencia respecto a la media en todos los puntos
Análisis exploratorio de datos en Power BI

3. Describe los datos con distribuciones

Un histograma de alturas de personas con los valores de altura en el eje x y el número de observaciones en el eje y.

  • Mediana y media son iguales
  • Curva simétrica
Análisis exploratorio de datos en Power BI

3. Describir los datos con distribuciones

Un histograma de ingresos del hogar con los valores de ingreso en el eje x y el número de observaciones en el eje y. El histograma es ancho a la izquierda y se estrecha hacia la derecha.

  • Mediana < Media
  • "Sesgo a la derecha": la cola va a la derecha

Un histograma de tiempo en línea con los valores de tiempo en el eje x y el número de observaciones en el eje y. El histograma es estrecho a la izquierda y se ensancha hacia la derecha.

  • Mediana > Media
  • "Sesgo a la izquierda": la cola va a la izquierda
Análisis exploratorio de datos en Power BI

El dataset: anuncios de Airbnb

Una imagen del conjunto de datos de Airbnb con cinco columnas: listing_id, host_id, host_since (columna de fecha), city y price.

Análisis exploratorio de datos en Power BI

¡Vamos a practicar!

Análisis exploratorio de datos en Power BI

Preparing Video For Download...