Annahmen beim Hypothesentesten

Hypothesentests in Python

James Chapman

Curriculum Manager, DataCamp

Zufälligkeit

Annahme

Die Stichproben sind zufällige Teilmengen größerer Grundgesamtheiten

Folge

Stichprobe ist nicht repräsentativ

Wie prüfen

Verstehe, wie die Daten erhoben wurden
Sprich mit Datenerhebenden/Domain-Expert:innen

Ein Logo mit dem Satz „Responsibly Sourced Ingredients“.

¹ Stichprobenverfahren werden in "Sampling in Python" behandelt.

Unabhängigkeit der Beobachtungen

Annahme

Jede Beobachtung (Zeile) im Datensatz ist unabhängig

Folge

Höheres Risiko für falsch-negative/-positive Fehler

Wie prüfen

Verstehe, wie die Daten erhoben wurden

Große Stichprobe

Annahme

Die Stichprobe ist groß genug, damit der Zentrale Grenzwertsatz gilt

Folge

Breitere Konfidenzintervalle
Höheres Risiko für falsch-negative/-positive Fehler

Wie prüfen

Hängt vom Test ab

Große Stichprobe: t-Test

Eine Stichprobe

Mindestens 30 Beobachtungen in der Stichprobe

$n \ge 30$

$n$: Stichprobengröße

Zwei Stichproben

Mindestens 30 Beobachtungen in jeder Stichprobe

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$: Stichprobengröße von Gruppe $i$

Gepaarte Stichproben

Mindestens 30 Paare von Beobachtungen

Zeilenzahl in den Daten $\ge 30$

ANOVA

Mindestens 30 Beobachtungen in jeder Stichprobe

$n_{i} \ge 30$ für alle $i$

Große Stichprobe: Anteils-Tests

Eine Stichprobe

Anzahl Erfolge in der Stichprobe ist ≥ 10

$n \times \hat{p} \ge 10$

Anzahl Misserfolge in der Stichprobe ist ≥ 10

$n \times (1 - \hat{p}) \ge 10$

$n$: Stichprobengröße
$\hat{p}$: Erfolgsanteil in der Stichprobe

Zwei Stichproben

Anzahl Erfolge in jeder Stichprobe ist ≥ 10

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

Anzahl Misserfolge in jeder Stichprobe ist ≥ 10

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Große Stichprobe: Chi-Quadrat-Tests

Anzahl Erfolge in jeder Gruppe ist ≥ 5

$n_{i} \times \hat{p}_{i} \ge 5$ für alle $i$

Anzahl Misserfolge in jeder Gruppe ist ≥ 5

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ für alle $i$

$n_{i}$: Stichprobengröße von Gruppe $i$
$\hat{p}_{i}$: Erfolgsanteil in Gruppe $i$

Plausibilitätscheck

Wenn die Bootstrap-Verteilung nicht normal aussieht, sind die Annahmen wohl nicht erfüllt

Erhebung prüfen: Zufälligkeit, Unabhängigkeit und Stichprobengröße

Lass uns üben!

Hypothesentests in Python