p-Werte aus t-Statistiken berechnen

Hypothesentests in Python

James Chapman

Curriculum Manager, DataCamp

t-Verteilungen

  • t-Statistik folgt einer t-Verteilung
  • Hat den Parameter „Freiheitsgrade“ (df)
  • Ähnelt Normalverteilungen, mit dickeren Rändern

Grafik mit der PDF einer Standardnormalverteilung vs. einer t-Verteilung mit 1 Freiheitsgrad. Die t-Verteilung hat dickere Ränder und einen flacheren Gipfel in der Mitte.

Hypothesentests in Python

Freiheitsgrade

  • Größere Freiheitsgrade $\rightarrow$ t-Verteilung nähert sich der Normalverteilung
  • Normalverteilung $\rightarrow$ t-Verteilung mit unendlichen df
  • Freiheitsgrade: maximale Anzahl logisch unabhängiger Werte in der Stichprobe

Grafik mit der PDF einer Standardnormalverteilung vs. t-Verteilungen mit verschiedenen Freiheitsgraden. Mit steigenden Freiheitsgraden werden die Ränder schmaler und der Gipfel höher, die Verteilung ähnelt mehr der Normalverteilung.

Hypothesentests in Python

Freiheitsgrade berechnen

  • Datensatz hat 5 unabhängige Beobachtungen
  • Vier Werte sind 2, 6, 8 und 5
  • Der Stichprobenmittelwert ist 5
  • Der letzte Wert muss 4 sein
  • Hier gibt es 4 Freiheitsgrade

 

  • $df = n_{child} + n_{adult} - 2$
Hypothesentests in Python

Hypothesen

$H_{0}$: Die durchschnittliche Vergütung (in USD) ist bei denen, die zuerst als Kind codeten, und denen, die zuerst als Erwachsene codeten, gleich.

$H_{A}$: Die durchschnittliche Vergütung (in USD) ist bei denen, die zuerst als Kind codeten, höher als bei denen, die zuerst als Erwachsene codeten.

 

Verwende einen rechtsseitigen Test

Hypothesentests in Python

Signifikanzniveau

$\alpha = 0{,}1$

Wenn $p \le \alpha$, dann $H_{0}$ verwerfen.

Hypothesentests in Python

p-Werte berechnen: ein Anteil vs. ein Wert

from scipy.stats import norm
1 - norm.cdf(z_score)

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

  • z-Statistik: nötig, wenn eine Stichprobenkennzahl einen Populationsparameter schätzt

  • t-Statistik: nötig, wenn mehrere Stichprobenkennzahlen einen Populationsparameter schätzen

Hypothesentests in Python

p-Werte berechnen: zwei Mittelwerte aus verschiedenen Gruppen

numerator = xbar_child - xbar_adult
denominator = np.sqrt(s_child ** 2 / n_child + s_adult ** 2 / n_adult)
t_stat = numerator / denominator
1.8699313316221844
degrees_of_freedom = n_child + n_adult - 2
2259
Hypothesentests in Python

p-Werte berechnen: zwei Mittelwerte aus verschiedenen Gruppen

  • t-Verteilungs-CDF statt Normalverteilungs-CDF nutzen
from scipy.stats import t
1 - t.cdf(t_stat, df=degrees_of_freedom)
0.030811302165157595
  • Hinweis, dass Stack-Overflow-Data-Scientists, die als Kind mit dem Coden begannen, mehr verdienen.
Hypothesentests in Python

Lass uns üben!

Hypothesentests in Python

Preparing Video For Download...