Wat is exploratieve data-analyse?

Exploratory Data Analysis in Power BI

Jacob H. Marquez

Data Scientist at Microsoft

Wat is exploratieve data-analyse?

"Een aanpak om datasets te analyseren en hun hoofdkenmerken samen te vatten, vaak met statistische grafieken en andere datavisualisaties."

1 https://en.wikipedia.org/wiki/Exploratory_data_analysis
Exploratory Data Analysis in Power BI

Zes stappen voor EDA

  1. De datastructuur begrijpen

  2. Missende data herkennen

  3. Data beschrijven met statistiek en verdelingen

  4. Uitschieters vinden

  5. Relaties tussen variabelen onderzoeken en kwantificeren

  6. Hypothesen vormen

Exploratory Data Analysis in Power BI

Zes stappen voor EDA

  1. De datastructuur begrijpen

  2. Missende data herkennen

  3. Data beschrijven met statistiek en verdelingen

  4. Uitschieters vinden

  5. Relaties tussen variabelen onderzoeken en kwantificeren

  6. Hypothesen vormen

Exploratory Data Analysis in Power BI

1. De datastructuur begrijpen

Continue

Numerieke variabelen die vaak een oneindig aantal waarden kunnen aannemen

  • Aantal sterren in de ruimte
  • Doorklikpercentages
  • Afstand tussen twee steden

Categorisch

Niet-numerieke variabelen, meestal tekst, met twee of meer groepen

  • Woningtypen
  • Land
  • Bedrijf
Exploratory Data Analysis in Power BI

2. Missende data herkennen

 

Missing at random

Een matrix van negen bij vier met sets van drie rijen gegroepeerd voor drie steden: Seattle, New York City en Parijs. Er staan waarden in inches neerslag in 30 cellen en 6 zijn willekeurig leeg over de drie stadsgroepen.

 

Missing not at random

Een matrix van negen bij vier met sets van drie rijen gegroepeerd voor drie steden: Seattle, New York City en Parijs. Er staan waarden in inches neerslag in 30 cellen en 4 zijn willekeurig leeg, maar alleen in Seattle.

Exploratory Data Analysis in Power BI

2. Missende data aanpakken

 

Een matrix van negen bij vier met sets van drie rijen gegroepeerd voor drie steden: Seattle, New York City en Parijs. Er staan waarden in inches neerslag in 30 cellen en 4 zijn willekeurig leeg, maar alleen in Seattle.

Dezelfde matrix van negen bij vier maar met de bovenste rij verwijderd, om het verwijderen van lege cellen weer te geven.

Dezelfde matrix van negen bij vier maar nu heeft de bovenste rij waarden, om het imputeren van lege cellen met de mediaan weer te geven.

Exploratory Data Analysis in Power BI

3. Data beschrijven

  • Minimum
  • Maximum
  • Gemiddelde: som van alle waarden gedeeld door het aantal observaties
  • Mediaan: de middelste waarde in een reeks
  • Standaarddeviatie: gemiddelde afwijking van het gemiddelde over alle punten
Exploratory Data Analysis in Power BI

3. Beschrijf data met verdelingen

Een histogram van lengtes van mensen met de lengte op de x-as en het aantal observaties op de y-as.

  • Mediaan en gemiddelde zijn gelijk
  • Een symmetrische curve
Exploratory Data Analysis in Power BI

3. Data beschrijven met verdelingen

Een histogram van huishoudinkomen met inkomens op de x-as en het aantal observaties op de y-as. Het histogram is breed links en wordt smaller naar rechts.

  • Mediaan < Gemiddelde
  • Rechts-scheef: de staart ligt rechts

Een histogram van online bestede tijd met tijd op de x-as en het aantal observaties op de y-as. Het histogram is smal links en wordt breder naar rechts.

  • Mediaan > Gemiddelde
  • Links-scheef: de staart ligt links
Exploratory Data Analysis in Power BI

De dataset: Airbnb-vermeldingen

Een afbeelding van de Airbnb-dataset met vijf kolommen: listing_id, host_id, host_since (een datumkolom), city en price.

Exploratory Data Analysis in Power BI

Laten we oefenen!

Exploratory Data Analysis in Power BI

Preparing Video For Download...