Distributions et valeurs aberrantes

Analyse exploratoire des données dans Power BI

Jacob H. Marquez

Data Scientist at Microsoft

Qu’est-ce qu’une distribution ?

Définition : ensemble de toutes les valeurs possibles de la variable et de leurs fréquences associées.

Analyse exploratoire des données dans Power BI

Qu’est-ce qu’une distribution ?

Continue

Âge Fréquence
18 7
19 11
20 13
21 19
22 12
Analyse exploratoire des données dans Power BI

Qu’est-ce qu’une distribution ?

Continue

Âge Fréquence
18 7
19 11
20 13
21 19
22 12

Catégorielle

Couleur de cheveux Fréquence
Blond 30
Brun 50
Noir 40
Roux 20
Gris 20
Analyse exploratoire des données dans Power BI

Qu’est-ce qu’un histogramme ?

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Queue étroite de chaque côté d’une forte masse centrale.

Analyse exploratoire des données dans Power BI

Qu’est-ce qu’un histogramme ? - classes

Histogramme avec 100 classes

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Avec 100 classes, l’histogramme est plus lisse et détaillé.

Histogramme avec 20 classes

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Avec moins de classes, l’histogramme est plus rigide et anguleux.

Analyse exploratoire des données dans Power BI

Lire un histogramme - centralité et asymétrie

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Forte concentration au centre, moins aux extrémités.

Distribution normale

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Forte concentration à gauche, plus étroit vers la droite.

Distribution asymétrique à droite

Analyse exploratoire des données dans Power BI

Lire un histogramme - dispersion

Écart type plus grand

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Forte concentration au centre, moins aux extrémités.

Écart type plus petit

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Plus étroit, presque en flèche, car l’écart type est faible.

Analyse exploratoire des données dans Power BI

Lire un histogramme - centiles

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Une zone verte du centre vers la gauche représente le 50e centile.

Analyse exploratoire des données dans Power BI

Lire un histogramme - 25e et 75e centiles

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Deux zones vertes : à gauche du 25e centile et à droite du 75e centile.

Analyse exploratoire des données dans Power BI

Lire un histogramme - écart interquartile

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Zone verte du 25e au 75e centile représentant l’écart interquartile.

Analyse exploratoire des données dans Power BI

Qu’est-ce qu’une valeur aberrante ?

Un histogramme des tailles, avec les tailles en abscisse et le nombre d’observations en ordonnée. Zones vertes aux extrémités indiquant de possibles valeurs aberrantes.

Analyse exploratoire des données dans Power BI

Détecter les valeurs aberrantes

Avec l’écart type

$lower = -3 * SD$

$upper = 3 * SD$

$$

Valeur aberrante si

$value < lower$ OU $value > upper$

Écart interquartile (IQR)

$lower = 25percentile-(1.5 * IQR)$

$upper = 75percentile+(1.5 * IQR)$

$$

Valeur aberrante si

$value < lower$ OU $value > upper$

Analyse exploratoire des données dans Power BI

Traiter les valeurs aberrantes

  1. Supprimer des observations
  2. Imputation

Winsorisation

SI value < 5th percentile ALORS value = 5th percentile

$$

SI value > 95th percentile ALORS value = 95th percentile

Analyse exploratoire des données dans Power BI

Passons à la pratique !

Analyse exploratoire des données dans Power BI

Preparing Video For Download...