Een plot zegt meer dan duizend woorden

Data­visualisatie begrijpen

Richie Cotton

Data Evangelist at DataCamp

Wat je leert

  • Hoe kies je een passende visualisatie?
  • Hoe interpreteer je veelvoorkomende grafieken?
  • Wat zijn best practices voor grafieken tekenen?
Data­visualisatie begrijpen

Drie manieren om inzichten te krijgen

Samenvattende statistieken berekenen

gemiddelde, mediaan, standaarddeviatie

Modellen draaien

lineaire en logistische regressie

Grafieken maken

scatter, staaf, histogram

Data­visualisatie begrijpen

De Datasaurus Dozijn

away_x away_y bullseye_x bullseye_y ... x_shape_x x_shape_y
32.33 61.41 51.20 83.34 ... 38.34 92.47
53.42 26.19 58.97 85.50 ... 35.75 94.12
63.92 30.83 51.87 85.83 ... 32.77 88.52
70.29 82.53 48.18 85.05 ... 33.73 88.62
34.12 45.73 41.68 84.02 ... 37.24 83.72
67.67 37.11 37.89 82.57 ... 36.03 82.04
1 Matejka, J., & Fitzmaurice, G. (2017) https://www.autodeskresearch.com/publications/samestats
Data­visualisatie begrijpen

Gemiddelde van x per dataset

dataset mean(x)
away 54.27
bullseye 54.27
circle 54.27
dino 54.26
dots 54.26
h_lines 54.26
high_lines 54.27
dataset mean(x)
slant_down 54.27
slant_up 54.27
star 54.27
v_lines 54.27
wide_lines 54.27
x_shape 54.26
Data­visualisatie begrijpen

Gemiddelde van x en y per dataset

dataset mean(x) mean(y)
away 54.27 47.83
bullseye 54.27 47.83
circle 54.27 47.84
dino 54.26 47.83
dots 54.26 47.84
h_lines 54.26 47.83
high_lines 54.27 47.84
dataset mean(x) mean(y)
slant_down 54.27 47.84
slant_up 54.27 47.83
star 54.27 47.84
v_lines 54.27 47.84
wide_lines 54.27 47.83
x_shape 54.26 47.84
Data­visualisatie begrijpen

Standaarddeviaties per dataset

dataset std_dev(x) std_dev(y)
away 16.77 26.94
bullseye 16.77 26.94
circle 16.76 26.93
dino 16.77 26.94
dots 16.77 26.93
h_lines 16.77 26.94
high_lines 16.77 26.94
dataset std_dev(x) std_dev(y)
slant_down 16.77 26.94
slant_up 16.77 26.94
star 16.77 26.93
v_lines 16.77 26.94
wide_lines 16.77 26.94
x_shape 16.77 26.93
Data­visualisatie begrijpen

Spreidingsdiagrammen van de 13 datasets in de Dinosaurus Dozijn. Elke dataset ziet er heel anders uit.

Data­visualisatie begrijpen

Continue en categorische variabelen

Continue: meestal getallen

  • lengtes, temperaturen, omzetten
Data­visualisatie begrijpen

Continue en categorische variabelen

Continue: meestal getallen

  • lengtes, temperaturen, omzetten

Categorisch: meestal tekst

  • oogkleuren, landen, sector
Data­visualisatie begrijpen

Continue en categorische variabelen

Continue: meestal getallen

  • lengtes, temperaturen, omzetten

Categorisch: meestal tekst

  • oogkleuren, landen, sector

Kan beide zijn

  • leeftijd is continu, maar leeftijdsgroep is categorisch
  • tijd is continu, maand van het jaar is categorisch
Data­visualisatie begrijpen

Laten we oefenen!

Data­visualisatie begrijpen

Preparing Video For Download...