p-Werte aus t-Statistiken berechnen

Hypothesentests in Python

James Chapman

Curriculum Manager, DataCamp

t-Verteilungen

t-Statistik folgt einer t-Verteilung
Hat den Parameter „Freiheitsgrade“ (df)
Ähnelt Normalverteilungen, mit dickeren Rändern

Grafik mit der PDF einer Standardnormalverteilung vs. einer t-Verteilung mit 1 Freiheitsgrad. Die t-Verteilung hat dickere Ränder und einen flacheren Gipfel in der Mitte.

Freiheitsgrade

Größere Freiheitsgrade $\rightarrow$ t-Verteilung nähert sich der Normalverteilung
Normalverteilung $\rightarrow$ t-Verteilung mit unendlichen df
Freiheitsgrade: maximale Anzahl logisch unabhängiger Werte in der Stichprobe

Grafik mit der PDF einer Standardnormalverteilung vs. t-Verteilungen mit verschiedenen Freiheitsgraden. Mit steigenden Freiheitsgraden werden die Ränder schmaler und der Gipfel höher, die Verteilung ähnelt mehr der Normalverteilung.

Freiheitsgrade berechnen

Datensatz hat 5 unabhängige Beobachtungen
Vier Werte sind 2, 6, 8 und 5
Der Stichprobenmittelwert ist 5
Der letzte Wert muss 4 sein
Hier gibt es 4 Freiheitsgrade

$df = n_{child} + n_{adult} - 2$

Hypothesen

$H_{0}$: Die durchschnittliche Vergütung (in USD) ist bei denen, die zuerst als Kind codeten, und denen, die zuerst als Erwachsene codeten, gleich.

$H_{A}$: Die durchschnittliche Vergütung (in USD) ist bei denen, die zuerst als Kind codeten, höher als bei denen, die zuerst als Erwachsene codeten.

Verwende einen rechtsseitigen Test

Signifikanzniveau

$\alpha = 0{,}1$

Wenn $p \le \alpha$, dann $H_{0}$ verwerfen.

p-Werte berechnen: ein Anteil vs. ein Wert

from scipy.stats import norm
1 - norm.cdf(z_score)

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

z-Statistik: nötig, wenn eine Stichprobenkennzahl einen Populationsparameter schätzt
t-Statistik: nötig, wenn mehrere Stichprobenkennzahlen einen Populationsparameter schätzen

p-Werte berechnen: zwei Mittelwerte aus verschiedenen Gruppen

numerator = xbar_child - xbar_adult
denominator = np.sqrt(s_child ** 2 / n_child + s_adult ** 2 / n_adult)
t_stat = numerator / denominator

1.8699313316221844

degrees_of_freedom = n_child + n_adult - 2

p-Werte berechnen: zwei Mittelwerte aus verschiedenen Gruppen

t-Verteilungs-CDF statt Normalverteilungs-CDF nutzen

from scipy.stats import t
1 - t.cdf(t_stat, df=degrees_of_freedom)

0.030811302165157595

Hinweis, dass Stack-Overflow-Data-Scientists, die als Kind mit dem Coden begannen, mehr verdienen.

Lass uns üben!

Hypothesentests in Python