Visualiser vos données

Manipulation de données avec pandas

Maggie Matsui

Senior Content Developer at DataCamp

Histogrammes

import matplotlib.pyplot as plt
dog_pack["height_cm"].hist()
plt.show()

Un histogramme des tailles des chiens. Les plus petits mesurent moins de 20 cm et les plus grands 70 cm. La taille la plus courante des chiens se situe entre 50 et 60 cm.

Manipulation de données avec pandas

Histogrammes

dog_pack["height_cm"].hist(bins=20)
plt.show()

Le même histogramme que celui présenté dans la diapositive précédente, mais maintenant avec 20 barres étroites.

dog_pack["height_cm"].hist(bins=5)
plt.show()

Le même histogramme que celui présenté dans la diapositive précédente, mais maintenant avec cinq barres plus larges.

Manipulation de données avec pandas

Diagrammes à barres

avg_weight_by_breed = dog_pack.groupby("breed")["weight_kg"].mean()
print(avg_weight_by_breed)
breed
Beagle         10.636364
Boxer          30.620000
Chihuahua       1.491667
Chow Chow      22.535714
Dachshund       9.975000
Labrador       31.850000
Poodle         20.400000
St. Bernard    71.576923
Name: weight_kg, dtype: float64
Manipulation de données avec pandas

Diagrammes à barres

avg_weight_by_breed.plot(kind="bar")

plt.show()

![Graphique à barres représentant le poids moyen des chiens, en kilogrammes, répartis par race. https://assets.datacamp.com/production/repositories/5386/datasets/05a0aa441c3f2025313aa662d46c0cd1e407d4d7/breed_weight_barplot.png Les chiens Saint-Bernard sont les plus lourds, tandis que les chihuahuas sont les plus légers.

avg_weight_by_breed.plot(kind="bar",
    title="Mean Weight by Dog Breed")
plt.show()

Le même graphique à barres que celui situé à gauche de l'écran, mais avec un titre supplémentaire indiquant « Poids moyen par race de chien ».

Manipulation de données avec pandas

Diagrammes linéaires

sully.head()
          date    weight_kg
0   2019-01-31         36.1
1   2019-02-28         35.3
2   2019-03-31         32.0
3   2019-04-30         32.9
4   2019-05-31         32.0
sully.plot(x="date", 
           y="weight_kg", 
           kind="line")
plt.show()

![Graphique représentant le poids d'un chien nommé Sully au fil du temps. https://assets.datacamp.com/production/repositories/5386/datasets/2c8d67de34db3bb02f07446792f1fe433c11dd67/line_plot.png Le poids varie entre 27 et 36 kilogrammes.

Manipulation de données avec pandas

Rotation des étiquettes d’axe

sully.plot(x="date", y="weight_kg", kind="line", rot=45)
plt.show()

Le même graphique du poids de Sully que dans la diapositive précédente, mais avec le texte sur l’axe X pivoté de 45 degrés dans le sens horaire..

Manipulation de données avec pandas

Diagrammes en nuages de points

dog_pack.plot(x="height_cm", y="weight_kg", kind="scatter")
plt.show()

Graphique en nuage de points du poids et de la taille des chiens. Le poids des chiens augmente avec leur taille. Il y a quelques regroupements. Je me demande si cela correspond à des races.

Manipulation de données avec pandas

Superposition de graphiques

dog_pack[dog_pack["sex"]=="F"]["height_cm"].hist()
dog_pack[dog_pack["sex"]=="M"]["height_cm"].hist()

plt.show()

Deux histogrammes représentant la taille des chiens sont présentés dans le même graphique. L'un est bleu et l'autre est orange. L'histogramme orange recouvre l'histogramme bleu, rendant difficile la compréhension de ce qui se passe.

Manipulation de données avec pandas

Ajouter une légende

dog_pack[dog_pack["sex"]=="F"]["height_cm"].hist()
dog_pack[dog_pack["sex"]=="M"]["height_cm"].hist()
plt.legend(["F", "M"])
plt.show()

Le même graphique avec deux histogrammes que dans la diapositive précédente, mais avec une légende. La lettre « F » (femelle) est marquée en bleu et la lettre « M » (mâle) en orange. Il est encore difficile de voir ce qui se passe.

Manipulation de données avec pandas

Transparence

dog_pack[dog_pack["sex"]=="F"]["height_cm"].hist(alpha=0.7)
dog_pack[dog_pack["sex"]=="M"]["height_cm"].hist(alpha=0.7)
plt.legend(["F", "M"])
plt.show()

Le même graphique avec deux histogrammes que dans la diapositive précédente, mais les histogrammes sont maintenant transparents. Cela permet de voir les barres de l’histogramme des femelles qui étaient masquées par les barres de l’histogramme des mâles. C’est encore un peu moche. Vous devriez suivre les cours sur Seaborn, car les graphiques sont plus jolis..

Manipulation de données avec pandas

Avocats

print(avocados)
            date          type  year  avg_price         size     nb_sold
0     2015-12-27  conventional  2015       0.95        small  9626901.09
1     2015-12-20  conventional  2015       0.98        small  8710021.76
2     2015-12-13  conventional  2015       0.93        small  9855053.66
...          ...           ...   ...        ...          ...         ...
1011  2018-01-21       organic  2018       1.63  extra_large     1490.02
1012  2018-01-14       organic  2018       1.59  extra_large     1580.01
1013  2018-01-07       organic  2018       1.51  extra_large     1289.07

[1014 rows x 6 columns]
Manipulation de données avec pandas

Passons à la pratique !

Manipulation de données avec pandas

Preparing Video For Download...