Un diagramme vaut mille mots

Comprendre la visualisation des données

Richie Cotton

Data Evangelist at DataCamp

Ce que vous apprendrez

  • Comment choisir un diagramme approprié ?
  • Comment interpréter les types de diagrammes courants ?
  • Quelles sont les meilleures pratiques pour tracer des diagrammes ?
Comprendre la visualisation des données

Trois façons d’obtenir des informations

Calcul de statistiques récapitulatives

moyenne, médiane, écart type

Exécution de modèles

régression linéaire et logistique

Tracé de diagrammes

en nuage de points, à barres, histogramme

Comprendre la visualisation des données

Datasaurus Dozen

away_x away_y bullseye_x bullseye_y ... x_shape_x x_shape_y
32.33 61.41 51.20 83.34 ... 38.34 92.47
53.42 26.19 58.97 85.50 ... 35.75 94.12
63.92 30.83 51.87 85.83 ... 32.77 88.52
70.29 82.53 48.18 85.05 ... 33.73 88.62
34.12 45.73 41.68 84.02 ... 37.24 83.72
67.67 37.11 37.89 82.57 ... 36.03 82.04
1 Matejka, J., Fitzmaurice, G. (2017) https://www.autodeskresearch.com/publications/samestats
Comprendre la visualisation des données

Moyenne de x pour chaque ensemble de données

Ensemble de données moyenne(x)
away 54.27
bullseye 54.27
circle 54.27
dino 54.26
dots 54.26
h_lines 54.26
high_lines 54.27
Ensemble de données moyenne(x)
slant_down 54.27
slant_up 54.27
star 54.27
v_lines 54.27
wide_lines 54.27
x_shape 54.26
Comprendre la visualisation des données

Moyenne de x et y pour chaque ensemble de données

Ensemble de données moyenne(x) moyenne(y)
away 54.27 47.83
bullseye 54.27 47.83
circle 54.27 47.84
dino 54.26 47.83
dots 54.26 47.84
h_lines 54.26 47.83
high_lines 54.27 47.84
Ensemble de données moyenne(x) moyenne(y)
slant_down 54.27 47.84
slant_up 54.27 47.83
star 54.27 47.84
v_lines 54.27 47.84
wide_lines 54.27 47.83
x_shape 54.26 47.84
Comprendre la visualisation des données

Écarts types pour chaque ensemble de données

Ensemble de données écart type(x) écart type(y)
away 16.77 26.94
bullseye 16.77 26.94
circle 16.76 26.93
dino 16.77 26.94
dots 16.77 26.93
h_lines 16.77 26.94
high_lines 16.77 26.94
Ensemble de données écart type(x) écart type(y)
slant_down 16.77 26.94
slant_up 16.77 26.94
star 16.77 26.93
v_lines 16.77 26.94
wide_lines 16.77 26.94
x_shape 16.77 26.93
Comprendre la visualisation des données

Diagrammes en nuages de points des 13 ensembles de données de Dinosaurus Dozen. Chaque ensemble de données est très différent des autres.

Comprendre la visualisation des données

Variables continues et catégorielles

Continues : généralement des nombres

  • hauteurs, températures, chiffres d’affaire
Comprendre la visualisation des données

Variables continues et catégorielles

Continues : généralement des nombres

  • hauteurs, températures, chiffres d’affaire

Catégorielles : généralement du texte

  • couleurs des yeux, pays, secteur
Comprendre la visualisation des données

Variables continues et catégorielles

Continues : généralement des nombres

  • hauteurs, températures, chiffres d’affaire

Catégorielles : généralement du texte

  • couleurs des yeux, pays, secteur

Peuvent être soit l’un soit l’autre

  • l’âge est continu, mais le groupe d’âge est catégoriel
  • le temps est continu, le mois de l’année est catégoriel
Comprendre la visualisation des données

Passons à la pratique !

Comprendre la visualisation des données

Preparing Video For Download...