Statistische significantie

Hypothesetoetsen in Python

James Chapman

Curriculum Manager, DataCamp

p-waarde: recap

  • p-waarden kwantificeren bewijs voor de nulhypothese
  • Hoge p-waarde → nulhypothese niet verwerpen
  • Lage p-waarde → nulhypothese verwerpen
  • Waar ligt de grens?
Hypothesetoetsen in Python

Significantieniveau

Het significantieniveau van een hypothesetoets ($\alpha$) is de drempel voor "buiten redelijke twijfel"

  • Veelgebruikte $\alpha$-waarden: 0.2, 0.1, 0.05 en 0.01
  • Als $p \le \alpha$, verwerp $H_{0}$; anders verwerp $H_{0}$ niet
  • Stel $\alpha$ van tevoren in, vóór de toets
Hypothesetoetsen in Python

De p-waarde berekenen

alpha = 0.05

prop_child_samp = (stack_overflow['age_first_code_cut'] == "child").mean() prop_child_hyp = 0.35
std_error = np.std(first_code_boot_distn, ddof=1)
z_score = (prop_child_samp - prop_child_hyp) / std_error
p_value = 1 - norm.cdf(z_score, loc=0, scale=1)
3.1471479512323874e-05
Hypothesetoetsen in Python

Een beslissing nemen

alpha = 0.05

print(p_value)
3.1471479512323874e-05
p_value <= alpha
True

Verwerp $H_{0}$ ten gunste van $H_{A}$

Hypothesetoetsen in Python

Betrouwbaarheidsintervallen

Voor significantieniveau $\alpha$ kies je vaak betrouwbaarheidsniveau 1 - $\alpha$

  • $\alpha=0.05$ → $95\%$-betrouwbaarheidsinterval
import numpy as np
lower = np.quantile(first_code_boot_distn, 0.025)
upper = np.quantile(first_code_boot_distn, 0.975)
print((lower, upper))
(0.37063246351172047, 0.41132242370632466)
Hypothesetoetsen in Python

Soorten fouten

Werkte misdaad niet echt Pleegde misdaad echt
Vonnis onschuldig correct ze kwamen ermee weg
Vonnis schuldig onterechte veroordeling correct

 

feitelijke $H_{0}$ feitelijke $H_{A}$
gekozen $H_{0}$ correct vals-negatief
gekozen $H_{A}$ vals-positief correct

 

Vals-positieven zijn Type I-fouten; vals-negatieven zijn Type II-fouten.

Hypothesetoetsen in Python

Mogelijke fouten in ons voorbeeld

Als $p \le \alpha$, verwerpen we $H_{0}$:

  • Een vals-positieve (Type I) fout: data scientists begonnen niet vaker als kind met coderen

Als $ p \gt \alpha$, verwerpen we $H_{0}$ niet:

  • Een vals-negatieve (Type II) fout: data scientists begonnen wél vaker als kind met coderen
Hypothesetoetsen in Python

Laten we oefenen!

Hypothesetoetsen in Python

Preparing Video For Download...