Was ist explorative Datenanalyse?

Explorative Datenanalyse in Power BI

Jacob H. Marquez

Data Scientist at Microsoft

Was ist explorative Datenanalyse?

„Ein Ansatz zur Analyse von Datensätzen, um ihre wichtigsten Merkmale zu zusammenzufassen, oft mithilfe statistischer Grafiken und anderer Visualisierungsmethoden.“

1 https://en.wikipedia.org/wiki/Exploratory_data_analysis
Explorative Datenanalyse in Power BI

Sechs Schritte der EDA

  1. Datenstruktur verstehen

  2. Fehlende Daten erkennen

  3. Daten mit Kennzahlen & Verteilungen beschreiben

  4. Ausreißer identifizieren

  5. Beziehungen zwischen Variablen untersuchen und quantifizieren

  6. Hypothesen bilden

Explorative Datenanalyse in Power BI

Sechs Schritte der EDA

  1. Datenstruktur verstehen

  2. Fehlende Daten erkennen

  3. Daten mit Kennzahlen & Verteilungen beschreiben

  4. Ausreißer identifizieren

  5. Beziehungen zwischen Variablen untersuchen und quantifizieren

  6. Hypothesen bilden

Explorative Datenanalyse in Power BI

1. Datenstruktur verstehen

Stetig

Numerische Variablen, oft mit unendlich vielen möglichen Werten

  • Zahl der Sterne im All
  • Klickraten
  • Entfernung zwischen zwei Städten

Kategorisch

Nicht-numerische Variablen (meist Text) mit zwei oder mehr Gruppen

  • Haustypen
  • Land
  • Unternehmen
Explorative Datenanalyse in Power BI

2. Fehlende Daten erkennen

 

Fehlend zufällig (MAR)

Eine 9×4-Matrix mit jeweils drei Zeilen für drei Städte: Seattle, New York City und Paris. In 30 Zellen stehen Niederschlagswerte in Zoll, 6 Zellen sind zufällig leer über alle Städte.

 

Fehlend nicht zufällig (MNAR)

Eine 9×4-Matrix mit jeweils drei Zeilen für drei Städte: Seattle, New York City und Paris. In 30 Zellen stehen Niederschlagswerte in Zoll, 4 Zellen sind nur in Seattle zufällig leer.

Explorative Datenanalyse in Power BI

2. Fehlende Daten behandeln

 

Eine 9×4-Matrix mit jeweils drei Zeilen für drei Städte: Seattle, New York City und Paris. In 30 Zellen stehen Niederschlagswerte in Zoll, 4 Zellen sind nur in Seattle zufällig leer.

Dieselbe 9×4-Matrix, aber mit entfernter oberster Zeile, um das Entfernen leerer Zellen darzustellen.

Dieselbe 9×4-Matrix, aber die oberste Zeile hat nun Werte, um das Auffüllen leerer Zellen mit dem Median darzustellen.

Explorative Datenanalyse in Power BI

3. Daten beschreiben

  • Minimum
  • Maximum
  • Mittelwert: Summe aller Werte geteilt durch die Anzahl Beobachtungen
  • Median: der mittlere Wert einer sortierten Reihe
  • Standardabweichung: durchschnittliche Abweichung vom Mittelwert über alle Datenpunkte
Explorative Datenanalyse in Power BI

3. Daten mit Verteilungen beschreiben

Ein Histogramm von Körpergrößen mit Größen auf der x‑Achse und Anzahl Beobachtungen auf der y‑Achse.

  • Median und Mittelwert sind gleich
  • Symmetrische Kurve
Explorative Datenanalyse in Power BI

3. Daten mit Verteilungen beschreiben

Ein Histogramm des Haushaltseinkommens mit Einkommen auf der x‑Achse und Anzahl Beobachtungen auf der y‑Achse. Links breit, nach rechts schmaler.

  • Median < Mittelwert
  • „Rechtsschief“: der Schwanz zeigt nach rechts

Ein Histogramm der Online‑Zeit mit Zeit auf der x‑Achse und Anzahl Beobachtungen auf der y‑Achse. Links schmal, nach rechts breiter.

  • Median > Mittelwert
  • „Linksschief“: der Schwanz zeigt nach links
Explorative Datenanalyse in Power BI

Datensatz: Airbnb‑Angebote

Ein Bild des Airbnb‑Datensatzes mit fünf Spalten: listing_id, host_id, host_since (Datum), city und price.

Explorative Datenanalyse in Power BI

Lass uns üben!

Explorative Datenanalyse in Power BI

Preparing Video For Download...