Introduction aux graphiques linéaires

Introduction à la visualisation de données avec Seaborn

Erin Case

Data Scientist

Qu'est-ce qu'un diagramme linéaire ?

Deux types de graphiques relationnels : les diagrammes de dispersion et les diagrammes linéaires

Diagrammes en nuages de points

  • Chaque point du graphique est une observation indépendante

Diagrammes linéaires

  • Chaque point du graphique représente la même « chose », généralement suivie dans le temps

Graphique du cours de l'action dans le temps

Introduction à la visualisation de données avec Seaborn

Données sur la pollution de l'air

  • Stations de collecte dans toute la ville
  • Échantillons d'air des niveaux de dioxyde d'azote

Cinq premières lignes du DataFrame sur la pollution de l'air

Introduction à la visualisation de données avec Seaborn

Diagramme en nuage de points

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_mean, 
            kind="scatter")

plt.show()

Diagramme en nuages de points de la moyenne du dioxyde d'azote dans le temps

Introduction à la visualisation de données avec Seaborn

Graphique linéaire

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_mean, 
            kind="line")

plt.show()

Graphique de la moyenne du dioxyde d'azote en fonction du temps

Introduction à la visualisation de données avec Seaborn

Sous-groupes par lieu

Cinq premières lignes de la pollution de l'air par lieu DataFrame

Introduction à la visualisation de données avec Seaborn

Sous-groupes par lieu

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_loc_mean, 
            kind="line",
            style="location", 
            hue="location")

plt.show()

Graphique de la moyenne du dioxyde d'azote dans le temps par région

Introduction à la visualisation de données avec Seaborn

Ajouter des marqueurs

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_loc_mean, 
            kind="line", 
            style="location", 
            hue="location",
            markers=True)

plt.show()

Graphique linéaire avec ajout de marqueurs

Introduction à la visualisation de données avec Seaborn

Désactiver le style de ligne

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2_mean", 
            data=air_df_loc_mean, 
            kind="line", 
            style="location", 
            hue="location",
            markers=True,
            dashes=False)

plt.show()

Diagramme linéaire avec marqueurs et lignes continues

Introduction à la visualisation de données avec Seaborn

Observations multiples par valeur x

Cinq premières lignes du DataFrame sur la pollution de l'air par station

Introduction à la visualisation de données avec Seaborn

Observations multiples par valeur x

Diagramme en nuage de points
import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2", 
            data=air_df, 
            kind="scatter")

plt.show()

Diagramme en nuages de points du dioxyde d'azote pour toutes les stations au fil du temps

Introduction à la visualisation de données avec Seaborn

Observations multiples par valeur x

Graphique linéaire
import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2", 
            data=air_df, 
            kind="line")

plt.show()

Diagramme en ligne du dioxyde d'azote pour toutes les stations au fil du temps

Introduction à la visualisation de données avec Seaborn

Observations multiples par valeur x

La région ombrée est l'intervalle de confiance

  • Suppose que l'ensemble des données est un échantillon aléatoire
  • 95 % de certitude que la moyenne est comprise dans cet intervalle
  • Indique l'incertitude de notre estimation

Diagramme en ligne du dioxyde d'azote pour toutes les stations au fil du temps

Introduction à la visualisation de données avec Seaborn

Remplacement de l'intervalle de confiance par l'écart-type

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2", 
            data=air_df, 
            kind="line",
            ci="sd")

plt.show()

Diagramme en ligne avec écart-type

Introduction à la visualisation de données avec Seaborn

Désactiver l'intervalle de confiance

import matplotlib.pyplot as plt
import seaborn as sns

sns.relplot(x="hour", y="NO_2", 
            data=air_df, 
            kind="line",
            ci=None)

plt.show()

Diagramme en ligne sans intervalle de confiance

Introduction à la visualisation de données avec Seaborn

Passons à la pratique !

Introduction à la visualisation de données avec Seaborn

Preparing Video For Download...