Un gráfico vale más que mil palabras

Comprender la visualización de datos

Richie Cotton

Data Evangelist at DataCamp

Lo que aprenderás

  • ¿Cómo se elige un diagrama adecuado?
  • ¿Cómo interpretas los tipos habituales de diagramas?
  • ¿Cuáles son las mejores prácticas para generar diagramas?
Comprender la visualización de datos

Tres formas de obtener información

Calcular estadísticas de resumen

media, mediana, desviación típica

Ejecutar modelos

regresión lineal y logística

Generar diagramas

dispersión, barras, histograma

Comprender la visualización de datos

La docena Datasaurus

away_x away_y bullseye_x bullseye_y ... x_shape_x x_shape_y
32.33 61.41 51.20 83.34 ... 38.34 92.47
53.42 26.19 58.97 85.50 ... 35.75 94.12
63.92 30.83 51.87 85.83 ... 32.77 88.52
70.29 82.53 48.18 85.05 ... 33.73 88.62
34.12 45.73 41.68 84.02 ... 37.24 83.72
67.67 37.11 37.89 82.57 ... 36.03 82.04
1 Matejka, J., & Fitzmaurice, G. (2017) https://www.autodeskresearch.com/publications/samestats
Comprender la visualización de datos

Media de x para cada conjunto de datos

dataset mean(x)
away 54.27
bullseye 54.27
circle 54.27
dino 54.26
dots 54.26
h_lines 54.26
high_lines 54.27
dataset mean(x)
slant_down 54.27
slant_up 54.27
star 54.27
v_lines 54.27
wide_lines 54.27
x_shape 54.26
Comprender la visualización de datos

Media de x e y para cada conjunto de datos

dataset mean(x) mean(y)
away 54.27 47.83
bullseye 54.27 47.83
circle 54.27 47.84
dino 54.26 47.83
dots 54.26 47.84
h_lines 54.26 47.83
high_lines 54.27 47.84
dataset mean(x) mean(y)
slant_down 54.27 47.84
slant_up 54.27 47.83
star 54.27 47.84
v_lines 54.27 47.84
wide_lines 54.27 47.83
x_shape 54.26 47.84
Comprender la visualización de datos

Desviaciones estándar de cada conjunto de datos

dataset std_dev(x) std_dev(y)
away 16.77 26.94
bullseye 16.77 26.94
circle 16.76 26.93
dino 16.77 26.94
dots 16.77 26.93
h_lines 16.77 26.94
high_lines 16.77 26.94
dataset std_dev(x) std_dev(y)
slant_down 16.77 26.94
slant_up 16.77 26.94
star 16.77 26.93
v_lines 16.77 26.94
wide_lines 16.77 26.94
x_shape 16.77 26.93
Comprender la visualización de datos

Diagramas de dispersión de los 13 conjuntos de datos de la docena Datasaurus. Cada conjunto de datos tiene un aspecto muy diferente de los demás

Comprender la visualización de datos

Variables continuas y categóricas

Continuo: normalmente números

  • alturas, temperaturas, ingresos
Comprender la visualización de datos

Variables continuas y categóricas

Continuo: normalmente números

  • alturas, temperaturas, ingresos

Categórica: normalmente texto

  • colores de ojos, países, sectores
Comprender la visualización de datos

Variables continuas y categóricas

Continuo: normalmente números

  • alturas, temperaturas, ingresos

Categórica: normalmente texto

  • colores de ojos, países, sectores

Puede ser ambos

  • la edad es continua, pero el grupo de edad es categórico
  • el tiempo es continuo, pero los meses del año son categóricos
Comprender la visualización de datos

¡Vamos a practicar!

Comprender la visualización de datos

Preparing Video For Download...