Um gráfico vale mais do que mil palavras

Entendendo a visualização de dados

Richie Cotton

Data Evangelist at DataCamp

O que você aprenderá

  • Como escolher um gráfico apropriado?
  • Como interpretar tipos de gráficos comuns?
  • Quais são as práticas recomendadas para desenhar gráficos?
Entendendo a visualização de dados

Três maneiras de obter insights

Calculando estatísticas resumidas

média, mediana, desvio padrão

Executando modelos

regressão linear e logística

Desenhando gráficos

dispersão, barra, histograma

Entendendo a visualização de dados

The Datasaurus Dozen

away_x away_y bullseye_x bullseye_y ... x_shape_x x_shape_y
32,33 61,41 51,20 83,34 ... 38,34 92,47
53,42 26,19 58,97 85,50 ... 35,75 94,12
63,92 30,83 51,87 85,83 ... 32,77 88,52
70,29 82,53 48,18 85,05 ... 33,73 88,62
34,12 45,73 41,68 84,02 ... 37,24 83,72
67,67 37,11 37,89 82,57 ... 36,03 82,04
1 Matejka, J., & Fitzmaurice, G. (2017) https://www.autodeskresearch.com/publications/samestats
Entendendo a visualização de dados

Média de x para cada conjunto de dados

conjunto de dados média(x)
away 54,27
bullseye 54,27
circle 54,27
dino 54,26
dots 54,26
h_lines 54,26
high_lines 54,27
conjunto de dados média(x)
slant_down 54,27
slant_up 54,27
star 54,27
v_lines 54,27
wide_lines 54,27
x_shape 54,26
Entendendo a visualização de dados

Média de x e y para cada conjunto de dados

conjunto de dados média(x) média(y)
away 54,27 47,83
bullseye 54,27 47,83
circle 54,27 47,84
dino 54,26 47,83
dots 54,26 47,84
h_lines 54,26 47,83
high_lines 54,27 47,84
conjunto de dados média(x) média(y)
slant_down 54,27 47,84
slant_up 54,27 47,83
star 54,27 47,84
v_lines 54,27 47,84
wide_lines 54,27 47,83
x_shape 54,26 47,84
Entendendo a visualização de dados

Desvios padrão para cada conjunto de dados

conjunto de dados std_dev(x) std_dev(y)
away 16,77 26,94
bullseye 16,77 26,94
circle 16,76 26,93
dino 16,77 26,94
dots 16,77 26,93
h_lines 16,77 26,94
high_lines 16,77 26,94
conjunto de dados std_dev(x) std_dev(y)
slant_down 16,77 26,94
slant_up 16,77 26,94
star 16,77 26,93
v_lines 16,77 26,94
wide_lines 16,77 26,94
x_shape 16,77 26,93
Entendendo a visualização de dados

Gráficos de dispersão dos 13 conjuntos de dados do Dinosaurus Dozen. Cada conjunto de dados tem uma aparência muito diferente dos outros.

Entendendo a visualização de dados

Variáveis contínuas e categóricas

Contínuas: geralmente números

  • alturas, temperaturas, receitas
Entendendo a visualização de dados

Variáveis contínuas e categóricas

Contínuas: geralmente números

  • alturas, temperaturas, receitas

Categóricas: geralmente texto

  • cor dos olhos, países, setor
Entendendo a visualização de dados

Variáveis contínuas e categóricas

Contínuas: geralmente números

  • alturas, temperaturas, receitas

Categóricas: geralmente texto

  • cores dos olhos, países, setores

Podem ser as duas

  • idade é contínua, mas faixa etária é categórica
  • tempo é contínua, mas mês do ano é categórica
Entendendo a visualização de dados

Vamos praticar!

Entendendo a visualização de dados

Preparing Video For Download...