Daten visualisieren

Datenbearbeitung mit pandas

Maggie Matsui

Senior Content Developer at DataCamp

Histogramme

import matplotlib.pyplot as plt
dog_pack["height_cm"].hist()
plt.show()

Histogramm mit den Größen der Hunde; die kleinsten Hunde sind kaum 20 cm groß und die größten Hunde sind etwa 70 cm groß; am häufigsten ist eine Größe zwischen 50 und 60 cm

Datenbearbeitung mit pandas

Histogramme

dog_pack["height_cm"].hist(bins=20)
plt.show()

Dasselbe Histogramm mit den Größen der Hunde wie auf der vorherigen Folie, aber jetzt mit 20 schmalen Bins

dog_pack["height_cm"].hist(bins=5)
plt.show()

Dasselbe Histogramm mit den Größen der Hunde wie auf der vorherigen Folie, aber jetzt mit 5 breiten Bins

Datenbearbeitung mit pandas

Balkendiagramme

avg_weight_by_breed = dog_pack.groupby("breed")["weight_kg"].mean()
print(avg_weight_by_breed)
breed
Beagle         10.636364
Boxer          30.620000
Chihuahua       1.491667
Chow Chow      22.535714
Dachshund       9.975000
Labrador       31.850000
Poodle         20.400000
St. Bernard    71.576923
Name: weight_kg, dtype: float64
Datenbearbeitung mit pandas

Balkendiagramme

avg_weight_by_breed.plot(kind="bar")

plt.show()

![Ein Balkendiagramm mit den Durchschnittsgewichten von Hunden in Kilogramm, aufgeteilt nach Rasse. St. Bernardi sind die schwersten Hunde, Chihuahuas die leichtesten. (https://assets.datacamp.com/production/repositories/5386/datasets/05a0aa441c3f2025313aa662d46c0cd1e407d4d7/breed_weight_barplot.png = 65)

avg_weight_by_breed.plot(kind="bar",
    title="Mean Weight by Dog Breed")
plt.show()

Das gleiche Balkendiagramm wie links auf dem Bildschirm, aber mit dem zusätzlichen Titel „Durchschnittsgewicht nach Hunderasse“.

Datenbearbeitung mit pandas

Liniendiagramme

sully.head()
          date    weight_kg
0   2019-01-31         36.1
1   2019-02-28         35.3
2   2019-03-31         32.0
3   2019-04-30         32.9
4   2019-05-31         32.0
sully.plot(x="date", 
           y="weight_kg", 
           kind="line")
plt.show()

![Ein Liniendiagramm, das zeigt, wie viel ein Hund namens Sully im Laufe der Zeit gewogen hat. Das Gewicht schwankt zwischen 27 und 36 Kilogramm. (https://assets.datacamp.com/production/repositories/5386/datasets/2c8d67de34db3bb02f07446792f1fe433c11dd67/line_plot.png = 70)

Datenbearbeitung mit pandas

Rotieren von Achsenbeschriftungen

sully.plot(x="date", y="weight_kg", kind="line", rot=45)
plt.show()

Dasselbe Liniendiagramm mit dem Gewicht von Sully wie auf der vorherigen Folie, aber nun ist der Text auf der x-Achse um 45 Grad im Uhrzeigersinn gedreht

Datenbearbeitung mit pandas

Streudiagramme

dog_pack.plot(x="height_cm", y="weight_kg", kind="scatter")
plt.show()

Streudiagramm für Gewicht und Größe der Hunde; mit zunehmender Größe des Hundes steigt auch sein Gewicht; es sind einige Cluster zu sehen, die möglicherweise Hunderassen entsprechen

Datenbearbeitung mit pandas

Übereinandergelegte Diagramme

dog_pack[dog_pack["sex"]=="F"]["height_cm"].hist()
dog_pack[dog_pack["sex"]=="M"]["height_cm"].hist()

plt.show()

In demselben Diagramm sind zwei Histogramme der Hundehöhen dargestellt. Einer ist blau und einer ist orange. Das orangefarbene Histogramm überlagert das blaue Histogramm, sodass man nicht so gut erkennen kann, was passiert.

Datenbearbeitung mit pandas

Legende für das Diagramm

dog_pack[dog_pack["sex"]=="F"]["height_cm"].hist()
dog_pack[dog_pack["sex"]=="M"]["height_cm"].hist()
plt.legend(["F", "M"])
plt.show()

Dieselben zwei Histogramme wie auf der vorherigen Folie, aber mit einer Legende; „F“ für „female“ (weibliche Hunde) ist blau und „M“ für „male“ (männliche Hunde) ist orange; das Diagramm lässt sich immer noch schwer ablesen

Datenbearbeitung mit pandas

Transparenz

dog_pack[dog_pack["sex"]=="F"]["height_cm"].hist(alpha=0.7)
dog_pack[dog_pack["sex"]=="M"]["height_cm"].hist(alpha=0.7)
plt.legend(["F", "M"])
plt.show()

Dieselben zwei Histogramme wie auf der vorherigen Folie, aber jetzt sind sie transparent; so sind auch alle Balken für weibliche Hunde zu sehen, die vorher von den Balken für männliche Hunde verdeckt wurden; die Darstellung ist aber etwas hässlich – in unseren Seaborn-Kursen lernst du, wie man schöne Diagramme erstellt

Datenbearbeitung mit pandas

Avocados

print(avocados)
            date          type  year  avg_price         size     nb_sold
0     2015-12-27  conventional  2015       0.95        small  9626901.09
1     2015-12-20  conventional  2015       0.98        small  8710021.76
2     2015-12-13  conventional  2015       0.93        small  9855053.66
...          ...           ...   ...        ...          ...         ...
1011  2018-01-21       organic  2018       1.63  extra_large     1490.02
1012  2018-01-14       organic  2018       1.59  extra_large     1580.01
1013  2018-01-07       organic  2018       1.51  extra_large     1289.07

[1014 rows x 6 columns]
Datenbearbeitung mit pandas

Lass uns üben!

Datenbearbeitung mit pandas

Preparing Video For Download...