Analyse exploratoire des données dans Power BI
Jacob H. Marquez
Data Scientist at Microsoft
Définition : ensemble de toutes les valeurs possibles de la variable et de leurs fréquences associées.
Continue
| Âge | Fréquence |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Continue
| Âge | Fréquence |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Catégorielle
| Couleur de cheveux | Fréquence |
|---|---|
| Blond | 30 |
| Brun | 50 |
| Noir | 40 |
| Roux | 20 |
| Gris | 20 |

Histogramme avec 100 classes

Histogramme avec 20 classes


Distribution normale

Distribution asymétrique à droite
Écart type plus grand

Écart type plus petit





Avec l’écart type
$lower = -3 * SD$
$upper = 3 * SD$
$$
Valeur aberrante si
$value < lower$ OU $value > upper$
Écart interquartile (IQR)
$lower = 25percentile-(1.5 * IQR)$
$upper = 75percentile+(1.5 * IQR)$
$$
Valeur aberrante si
$value < lower$ OU $value > upper$
Winsorisation
SI value < 5th percentile ALORS value = 5th percentile
$$
SI value > 95th percentile ALORS value = 95th percentile
Analyse exploratoire des données dans Power BI