Exploratory Data Analysis in Power BI
Jacob H. Marquez
Data Scientist at Microsoft
Definitie: set van alle mogelijke waarden van de variabele en de bijbehorende frequenties.
Continu
| Leeftijd | Frequentie |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Continu
| Leeftijd | Frequentie |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Categoraal
| Haarkleur | Frequentie |
|---|---|
| Blond | 30 |
| Bruin | 50 |
| Zwart | 40 |
| Rood | 20 |
| Grijs | 20 |

Histogram met 100 bins

Histogram met 20 bins


Normale verdeling

Rechts-scheve verdeling
Grotere standaarddeviatie

Kleinere standaarddeviatie





Met standaarddeviatie
$lower = -3 * SD$
$upper = 3 * SD$
$$
Uitschieter als
$value < lower$ OF $value > upper$
Interkwartielbereik (IQR)
$lower = 25percentile-(1.5 * IQR)$
$upper = 75percentile+(1.5 * IQR)$
$$
Uitschieter als
$value < lower$ OF $value > upper$
Winsoriseren
ALS value < 5th percentile DAN value = 5th percentile
$$
ALS value > 95th percentile DAN value = 95th percentile
Exploratory Data Analysis in Power BI