Verteilungen und Ausreißer

Explorative Datenanalyse in Power BI

Jacob H. Marquez

Data Scientist at Microsoft

Was sind Verteilungen?

Definition: Menge aller möglichen Werte der Variablen und ihrer Häufigkeiten.

Explorative Datenanalyse in Power BI

Was sind Verteilungen?

Stetig

Alter Häufigkeit
18 7
19 11
20 13
21 19
22 12
Explorative Datenanalyse in Power BI

Was sind Verteilungen?

Stetig

Alter Häufigkeit
18 7
19 11
20 13
21 19
22 12

Kategorial

Haarfarbe Häufigkeit
Blond 30
Braun 50
Schwarz 40
Rot 20
Grau 20
Explorative Datenanalyse in Power BI

Was sind Histogramme?

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Schmales Ende auf beiden Seiten einer großen Masse in der Mitte.

Explorative Datenanalyse in Power BI

Was sind Histogramme? – Bins

Histogramm mit 100 Bins

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Mit 100 Bins ist es glatter und detailreicher.

Histogramm mit 20 Bins

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Mit weniger Bins wirkt es kantiger und kastenförmiger.

Explorative Datenanalyse in Power BI

Histogramme lesen – Zentrum und Schiefe

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Viele Beobachtungen in der Mitte, weniger an den Rändern.

Normalverteilung

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Viele Beobachtungen links, nach rechts wird es schmaler.

Rechts-schiefe Verteilung

Explorative Datenanalyse in Power BI

Histogramme lesen – Streuung

Größere Standardabweichung

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Viele Beobachtungen in der Mitte, weniger an den Rändern.

Kleinere Standardabweichung

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Es ist schmaler, fast turmartig, da die Standardabweichung klein ist.

Explorative Datenanalyse in Power BI

Histogramme lesen – Perzentile

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Ein grün schattierter Bereich von der Mitte nach links markiert das 50. Perzentil.

Explorative Datenanalyse in Power BI

Histogramme lesen – 25. & 75. Perzentil

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Zwei grün schattierte Bereiche: links ab dem 25. Perzentil und rechts ab dem 75. Perzentil.

Explorative Datenanalyse in Power BI

Histogramme lesen – Interquartilsabstand

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. Ein grün schattierter Bereich vom 25. bis 75. Perzentil zeigt die Interquartilsabstand.

Explorative Datenanalyse in Power BI

Was ist ein Ausreißer?

Ein Histogramm von Körpergrößen mit Werten auf der x-Achse und Anzahl der Beobachtungen auf der y-Achse. An beiden Enden markiert ein grün schattierter Bereich mögliche Ausreißer.

Explorative Datenanalyse in Power BI

Ausreißer finden

Mit Standardabweichung

$lower = -3 * SD$

$upper = 3 * SD$

$$

Ausreißer, wenn

$value < lower$ ODER $value > upper$

Interquartilsabstand (IQR)

$lower = 25percentile-(1.5 * IQR)$

$upper = 75percentile+(1.5 * IQR)$

$$

Ausreißer, wenn

$value < lower$ ODER $value > upper$

Explorative Datenanalyse in Power BI

Ausreißer behandeln

  1. Beobachtungen entfernen
  2. Imputation

Winsorisieren

WENN value < 5th percentile DANN value = 5th percentile

$$

WENN value > 95th percentile DANN value = 95th percentile

Explorative Datenanalyse in Power BI

Lass uns üben!

Explorative Datenanalyse in Power BI

Preparing Video For Download...