Explorative Datenanalyse in Power BI
Jacob H. Marquez
Data Scientist at Microsoft
Definition: Menge aller möglichen Werte der Variablen und ihrer Häufigkeiten.
Stetig
| Alter | Häufigkeit |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Stetig
| Alter | Häufigkeit |
|---|---|
| 18 | 7 |
| 19 | 11 |
| 20 | 13 |
| 21 | 19 |
| 22 | 12 |
Kategorial
| Haarfarbe | Häufigkeit |
|---|---|
| Blond | 30 |
| Braun | 50 |
| Schwarz | 40 |
| Rot | 20 |
| Grau | 20 |

Histogramm mit 100 Bins

Histogramm mit 20 Bins


Normalverteilung

Rechts-schiefe Verteilung
Größere Standardabweichung

Kleinere Standardabweichung





Mit Standardabweichung
$lower = -3 * SD$
$upper = 3 * SD$
$$
Ausreißer, wenn
$value < lower$ ODER $value > upper$
Interquartilsabstand (IQR)
$lower = 25percentile-(1.5 * IQR)$
$upper = 75percentile+(1.5 * IQR)$
$$
Ausreißer, wenn
$value < lower$ ODER $value > upper$
Winsorisieren
WENN value < 5th percentile DANN value = 5th percentile
$$
WENN value > 95th percentile DANN value = 95th percentile
Explorative Datenanalyse in Power BI