Statistische significantie

Hypothesetoetsen in Python

James Chapman

Curriculum Manager, DataCamp

p-waarde: recap

p-waarden kwantificeren bewijs voor de nulhypothese
Hoge p-waarde → nulhypothese niet verwerpen
Lage p-waarde → nulhypothese verwerpen
Waar ligt de grens?

Significantieniveau

Het significantieniveau van een hypothesetoets ($\alpha$) is de drempel voor "buiten redelijke twijfel"

Veelgebruikte $\alpha$-waarden: 0.2, 0.1, 0.05 en 0.01
Als $p \le \alpha$, verwerp $H_{0}$; anders verwerp $H_{0}$ niet
Stel $\alpha$ van tevoren in, vóór de toets

De p-waarde berekenen

alpha = 0.05

prop_child_samp = (stack_overflow['age_first_code_cut'] == "child").mean()
prop_child_hyp = 0.35

std_error = np.std(first_code_boot_distn, ddof=1)

z_score = (prop_child_samp - prop_child_hyp) / std_error

p_value = 1 - norm.cdf(z_score, loc=0, scale=1)

3.1471479512323874e-05

Een beslissing nemen

alpha = 0.05

print(p_value)

3.1471479512323874e-05

p_value <= alpha

True

Verwerp $H_{0}$ ten gunste van $H_{A}$

Betrouwbaarheidsintervallen

Voor significantieniveau $\alpha$ kies je vaak betrouwbaarheidsniveau 1 - $\alpha$

$\alpha=0.05$ → $95\%$-betrouwbaarheidsinterval

import numpy as np
lower = np.quantile(first_code_boot_distn, 0.025)
upper = np.quantile(first_code_boot_distn, 0.975)
print((lower, upper))

(0.37063246351172047, 0.41132242370632466)

Soorten fouten

	Werkte misdaad niet echt	Pleegde misdaad echt
Vonnis onschuldig	correct	ze kwamen ermee weg
Vonnis schuldig	onterechte veroordeling	correct

	feitelijke $H_{0}$	feitelijke $H_{A}$
gekozen $H_{0}$	correct	vals-negatief
gekozen $H_{A}$	vals-positief	correct

Vals-positieven zijn Type I-fouten; vals-negatieven zijn Type II-fouten.

Mogelijke fouten in ons voorbeeld

Als $p \le \alpha$, verwerpen we $H_{0}$:

Een vals-positieve (Type I) fout: data scientists begonnen niet vaker als kind met coderen

Als $ p \gt \alpha$, verwerpen we $H_{0}$ niet:

Een vals-negatieve (Type II) fout: data scientists begonnen wél vaker als kind met coderen

Laten we oefenen!

Hypothesetoetsen in Python