Annahmen beim Hypothesentesten

Hypothesentests in Python

James Chapman

Curriculum Manager, DataCamp

Zufälligkeit

Annahme

Die Stichproben sind zufällige Teilmengen größerer Grundgesamtheiten

Folge
  • Stichprobe ist nicht repräsentativ
Wie prüfen
  • Verstehe, wie die Daten erhoben wurden
  • Sprich mit Datenerhebenden/Domain-Expert:innen

Ein Logo mit dem Satz „Responsibly Sourced Ingredients“.

1 Stichprobenverfahren werden in "Sampling in Python" behandelt.
Hypothesentests in Python

Unabhängigkeit der Beobachtungen

Annahme

Jede Beobachtung (Zeile) im Datensatz ist unabhängig

Folge
  • Höheres Risiko für falsch-negative/-positive Fehler
Wie prüfen
  • Verstehe, wie die Daten erhoben wurden
Hypothesentests in Python

Große Stichprobe

Annahme

Die Stichprobe ist groß genug, damit der Zentrale Grenzwertsatz gilt

Folge
  • Breitere Konfidenzintervalle
  • Höheres Risiko für falsch-negative/-positive Fehler
Wie prüfen
  • Hängt vom Test ab
Hypothesentests in Python

Große Stichprobe: t-Test

Eine Stichprobe
  • Mindestens 30 Beobachtungen in der Stichprobe

$n \ge 30$

$n$: Stichprobengröße

Zwei Stichproben
  • Mindestens 30 Beobachtungen in jeder Stichprobe

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$: Stichprobengröße von Gruppe $i$

Gepaarte Stichproben
  • Mindestens 30 Paare von Beobachtungen

Zeilenzahl in den Daten $\ge 30$

ANOVA
  • Mindestens 30 Beobachtungen in jeder Stichprobe

$n_{i} \ge 30$ für alle $i$

Hypothesentests in Python

Große Stichprobe: Anteils-Tests

Eine Stichprobe
  • Anzahl Erfolge in der Stichprobe ist ≥ 10

$n \times \hat{p} \ge 10$

  • Anzahl Misserfolge in der Stichprobe ist ≥ 10

$n \times (1 - \hat{p}) \ge 10$

$n$: Stichprobengröße
$\hat{p}$: Erfolgsanteil in der Stichprobe

Zwei Stichproben
  • Anzahl Erfolge in jeder Stichprobe ist ≥ 10

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

  • Anzahl Misserfolge in jeder Stichprobe ist ≥ 10

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Hypothesentests in Python

Große Stichprobe: Chi-Quadrat-Tests

  • Anzahl Erfolge in jeder Gruppe ist ≥ 5

$n_{i} \times \hat{p}_{i} \ge 5$ für alle $i$

  • Anzahl Misserfolge in jeder Gruppe ist ≥ 5

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ für alle $i$

$n_{i}$: Stichprobengröße von Gruppe $i$
$\hat{p}_{i}$: Erfolgsanteil in Gruppe $i$

Hypothesentests in Python

Plausibilitätscheck

Wenn die Bootstrap-Verteilung nicht normal aussieht, sind die Annahmen wohl nicht erfüllt

  • Erhebung prüfen: Zufälligkeit, Unabhängigkeit und Stichprobengröße
Hypothesentests in Python

Lass uns üben!

Hypothesentests in Python

Preparing Video For Download...