Verdelingen en uitschieters

Exploratory Data Analysis in Power BI

Jacob H. Marquez

Data Scientist at Microsoft

Wat zijn verdelingen?

Definitie: set van alle mogelijke waarden van de variabele en de bijbehorende frequenties.

Exploratory Data Analysis in Power BI

Wat zijn verdelingen?

Continu

Leeftijd Frequentie
18 7
19 11
20 13
21 19
22 12
Exploratory Data Analysis in Power BI

Wat zijn verdelingen?

Continu

Leeftijd Frequentie
18 7
19 11
20 13
21 19
22 12

Categoraal

Haarkleur Frequentie
Blond 30
Bruin 50
Zwart 40
Rood 20
Grijs 20
Exploratory Data Analysis in Power BI

Wat zijn histogrammen?

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Het histogram heeft smalle staarten aan beide kanten van een grote massa in het midden.

Exploratory Data Analysis in Power BI

Wat zijn histogrammen? - bins

Histogram met 100 bins

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Het histogram is gladder en toont meer detail met 100 bins.

Histogram met 20 bins

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Het histogram is hoekiger en blokkeriger met minder bins.

Exploratory Data Analysis in Power BI

Histogrammen lezen - centrum en scheefheid

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Er is een grote massa in het midden en minder aan de randen.

Normale verdeling

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Er is een grote massa links en het wordt smaller naar rechts.

Rechts-scheve verdeling

Exploratory Data Analysis in Power BI

Histogrammen lezen - spreiding

Grotere standaarddeviatie

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Er is een grote massa in het midden en minder aan de randen.

Kleinere standaarddeviatie

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Het is smaller, bijna spits, omdat de standaarddeviatie klein is.

Exploratory Data Analysis in Power BI

Histogrammen lezen - percentielen

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Er is een groen gearceerd gebied van het midden naar links dat het 50e percentiel aangeeft.

Exploratory Data Analysis in Power BI

Histogrammen lezen - 25e & 75e percentielen

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Er zijn twee groen gearceerde gebieden: links vanaf het 25e percentiel en rechts vanaf het 75e percentiel.

Exploratory Data Analysis in Power BI

Histogrammen lezen - interkwartielbereik

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Er is een groen gearceerd gebied van het 25e tot het 75e percentiel dat het interkwartielbereik weergeeft.

Exploratory Data Analysis in Power BI

Wat is een uitschieter?

Een histogram van lengtes van mensen met waardes op de x-as en het aantal observaties op de y-as. Er is een groen gearceerd gebied aan beide uiteinden dat mogelijke uitschieters markeert.

Exploratory Data Analysis in Power BI

Uitschieters vinden

Met standaarddeviatie

$lower = -3 * SD$

$upper = 3 * SD$

$$

Uitschieter als

$value < lower$ OF $value > upper$

Interkwartielbereik (IQR)

$lower = 25percentile-(1.5 * IQR)$

$upper = 75percentile+(1.5 * IQR)$

$$

Uitschieter als

$value < lower$ OF $value > upper$

Exploratory Data Analysis in Power BI

Uitschieters aanpakken

  1. Observaties verwijderen
  2. Imputatie

Winsoriseren

ALS value < 5th percentile DAN value = 5th percentile

$$

ALS value > 95th percentile DAN value = 95th percentile

Exploratory Data Analysis in Power BI

Laten we oefenen!

Exploratory Data Analysis in Power BI

Preparing Video For Download...