EDA met categorische variabelen

Exploratory Data Analysis in Power BI

Maarten Van den Broeck

Content Developer at DataCamp

Categorische variabelen en frequentie

Een staafdiagram met het aantal deelnemers (y-as) voor drie leeftijdsgroepen (x-as): "18-29", "30-39" en "40-49". De groep "40-49" heeft het hoogste aantal in de steeksproef.

Exploratory Data Analysis in Power BI

Categorische variabelen en percentages

Een cirkeldiagram met het percentage deelnemers in drie leeftijdsgroepen: "18-29", "30-39" en "40-49". De laatste groep heeft het hoogste percentage: 39,4%.

Exploratory Data Analysis in Power BI

Aandelen over meerdere categorische variabelen

Een 100% gestapeld staafdiagram. Op de x-as staan drie leeftijdsgroepen: "18-29", "30-39", "40-49". Het percentage deelnemers staat op de y-as. Elke balk is opgesplitst naar percentage per van de vier sociale mediaplatforms: Instagram, LinkedIn, TikTok en Twitter.

Exploratory Data Analysis in Power BI

Categorische variabelen met beschrijvende statistieken

Leeftijdsgroep Mediaan uur per dag op sociale media
18-29 6
30-39 3
40-49 3
Exploratory Data Analysis in Power BI

Wat zijn boxplots?

Een boxplot van lengtes van mensen. Lengtes, in centimeters, staan op de y-as.

Exploratory Data Analysis in Power BI

Wat zijn boxplots?

Een boxplot van lengtes van mensen. Lengtes, in centimeters, staan op de y-as. Een rode omlijning markeert de lijn in het midden van de boxplot: de mediaan.

Exploratory Data Analysis in Power BI

Wat zijn boxplots?

Een boxplot van lengtes van mensen. Lengtes, in centimeters, staan op de y-as. Een rode omlijning markeert de "box" van de boxplot.

Exploratory Data Analysis in Power BI

Wat zijn boxplots?

Een boxplot van lengtes van mensen. Lengtes, in centimeters, staan op de y-as. Een rode omlijning markeert de verticale snorren die vanaf de boven- en onderkant van de box lopen.

Exploratory Data Analysis in Power BI

Wat zijn boxplots?

Een boxplot van lengtes van mensen. Lengtes, in centimeters, staan op de y-as. Een rode omlijning markeert de uitschieters, of stippen, in de boxplot.

Exploratory Data Analysis in Power BI

Verdelingen vergelijken met categorische variabelen

Twee boxplots – één voor man en één voor vrouw – tonen de verdeling van lengtes per groep. Beide zijn even breed, maar de boxplot voor "man" staat hoger op de y-as.

Exploratory Data Analysis in Power BI

Nieuwe variabelen maken

Datamutatie: nieuwe variabelen maken om een analyse of visualisatie te verfijnen

Exploratory Data Analysis in Power BI

Nieuwe variabelen maken

Datamutatie: nieuwe variabelen maken om een analyse of visualisatie te verfijnen

Leeftijd Leeftijdsgroep
18 Tiener
19 Tiener
20 Jongvolwassene
21 Jongvolwassene
30 Volwassene
31 Volwassene
40 Middenleeftijd
41 Middenleeftijd

$$ $$ $$

Cursustitel Cursustype
Introduction to Power BI Power BI
Unsupervised Learning in R R
DAX in Power BI Power BI
Introduction to Python Python
Exploratory Data Analysis in Power BI

Laten we oefenen!

Exploratory Data Analysis in Power BI

Preparing Video For Download...