Hypothesentests in Python
James Chapman
Curriculum Manager, DataCamp
age_first_code_cut klassifiziert, wann Stack-Overflow-Nutzende mit dem Programmieren begonnen haben"adult" heißt Start mit 14 oder älter"child" heißt Start vor 14Eine Hypothese ist eine Aussage über einen unbekannten Populationsparameter
Ein Hypothesentest prüft zwei konkurrierende Hypothesen
Die Nullhypothese ($H_{0}$) ist die bestehende Annahme
Die Alternativhypothese ($H_{A}$) ist die neue, „herausfordernde“ Annahme der Forschenden
Für unser Problem:
Signifikanzniveau entspricht „ohne vernünftigen Zweifel“ beim Hypothesentesten

Hypothesentests prüfen, ob die Stichprobenstatistik in den Endbereichen der Nullverteilung liegt
| Test | Endbereich |
|---|---|
| Alternative ungleich Null | zweiseitig |
| Alternative größer als Null | rechtsseitig |
| Alternative kleiner als Null | linksseitig |
$H_{A}$: Der Anteil von Data Scientists, die als Kinder mit dem Programmieren starteten, ist größer als 35 %
Das ist ein rechtsseitiger Test

p-Werte: Wahrscheinlichkeit eines Ergebnisses, angenommen die Nullhypothese ist wahr
prop_child_samp = (stack_overflow['age_first_code_cut'] == "child").mean()
0.39141972578505085
prop_child_hyp = 0.35
std_error = np.std(first_code_boot_distn, ddof=1)
0.010351057228878566
z_score = (prop_child_samp - prop_child_hyp) / std_error
4.001497129152506
norm.cdf() ist die Normalverteilungs-CDF aus scipy.stats.norm.cdf() verwenden.1 - norm.cdf() verwenden.
from scipy.stats import norm
1 - norm.cdf(z_score, loc=0, scale=1)
3.1471479512323874e-05
Hypothesentests in Python