Einführung in Liniendiagramme

Einführung in die Datenvisualisierung mit Seaborn

Erin Case

Data Scientist

Was sind Liniendiagramme?

Zwei Arten von Relationsdiagrammen: Streudiagramme und Liniendiagramme

Streudiagramme

  • Jeder Datenpunkt ist eine unabhängige Beobachtung

Liniendiagramme

  • Jeder Datenpunkt steht für dieselbe Sache, die typischerweise im Zeitverlauf verfolgt wird

Liniendiagramm eines Aktienkurses in einem mehrjährigen Zeitraum

Einführung in die Datenvisualisierung mit Seaborn

Daten zur Luftverschmutzung

  • Messstationen in der ganzen Stadt
  • Proben zur Messung des Stickstoffdioxidgehalts

Die ersten fünf Zeilen des DataFrame zur Luftverschmutzung

Einführung in die Datenvisualisierung mit Seaborn

Streudiagramm

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_mean, 
            kind="scatter")

plt.show()

Streudiagramm des durchschnittlichen Stickstoffdioxidgehalts im Zeitverlauf

Einführung in die Datenvisualisierung mit Seaborn

Liniendiagramm

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_mean, 
            kind="line")

plt.show()

Liniendiagramm des durchschnittlichen Stickstoffdioxidgehalts im Zeitverlauf

Einführung in die Datenvisualisierung mit Seaborn

Untergruppen nach Region

Die ersten fünf Zeilen des DataFrame zur Luftverschmutzung mit einer Spalte für die Messregion

Einführung in die Datenvisualisierung mit Seaborn

Untergruppen nach Region

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_loc_mean, 
            kind="line",
            style="location", 
            hue="location")

plt.show()

Liniendiagramm des durchschnittlichen Stickstoffdioxidgehalts im Zeitverlauf pro Region

Einführung in die Datenvisualisierung mit Seaborn

Markierungen hinzufügen

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_loc_mean, 
            kind="line", 
            style="location", 
            hue="location",
            markers=True)

plt.show()

Liniendiagramm mit hinzugefügten Markierungen

Einführung in die Datenvisualisierung mit Seaborn

Einheitlicher Linienstil

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_loc_mean, 
            kind="line", 
            style="location", 
            hue="location",
            markers=True,
            dashes=False)

plt.show()

Liniendiagramm mit Markierungen und durchgängigen Linien

Einführung in die Datenvisualisierung mit Seaborn

Mehrere Beobachtungen pro x-Wert

Die ersten fünf Zeilen des DataFrame zur Luftverschmutzung für eine bestimmte Messregion

Einführung in die Datenvisualisierung mit Seaborn

Mehrere Beobachtungen pro x-Wert

Streudiagramm
import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2", 
            data=air_df, 
            kind="scatter")

plt.show()

Streudiagramm des Stickstoffdioxidgehalts für alle Messstationen im Zeitverlauf

Einführung in die Datenvisualisierung mit Seaborn

Mehrere Beobachtungen pro x-Wert

Liniendiagramm
import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2", 
            data=air_df, 
            kind="line")

plt.show()

Liniendiagramm des Stickstoffdioxidgehalts für alle Messstationen im Zeitverlauf

Einführung in die Datenvisualisierung mit Seaborn

Mehrere Beobachtungen pro x-Wert

Schattierter Bereich ist das Konfidenzintervall

  • Annahme: Datensatz ist eine Zufallsstichprobe
  • Mittelwert liegt mit Sicherheit von 95 % innerhalb dieses Intervalls
  • Unsicherheit der Schätzung ist dadurch erkennbar

Liniendiagramm des Stickstoffdioxidgehalts für alle Messstationen im Zeitverlauf

Einführung in die Datenvisualisierung mit Seaborn

Standardabweichung statt Konfidenzintervall

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2", 
            data=air_df, 
            kind="line",
            ci="sd")

plt.show()

Liniendiagramm mit Standardabweichung

Einführung in die Datenvisualisierung mit Seaborn

Konfidenzintervall deaktivieren

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2", 
            data=air_df, 
            kind="line",
            ci=None)

plt.show()

Liniendiagramm ohne Konfidenzintervall

Einführung in die Datenvisualisierung mit Seaborn

Lass uns üben!

Einführung in die Datenvisualisierung mit Seaborn

Preparing Video For Download...