Hypothesis Testing in R
Richie Cotton
Data Evangelist at DataCamp
age_first_code_cut classificeert wanneer een Stack Overflow-gebruiker begon met programmeren"adult" betekent begonnen op 14 jaar of ouder"child" betekent begonnen vóór 14 jaarEen hypothese is een uitspraak over een onbekende populatieparameter.
Een toets vergelijkt twee concurrerende hypothesen.
De nulhypothese ($H_{0}$) is het bestaande "kampioen"-idee.
De alternatieve hypothese ($H_{A}$) is het nieuwe "uitdager"-idee van de onderzoeker.
Voor ons probleem
De significantiedrempel is de analoog van "buiten redelijke twijfel" bij toetsen.

Toetsen bepalen of de steekproefstatistiek in de staarten van de nulverdeling ligt.
| Toets | Staarten |
|---|---|
| alternatief verschilt van nul | tweezijdig |
| alternatief groter dan nul | rechtszijdig |
| alternatief kleiner dan nul | linkszijdig |
$H_{A}$: Het aandeel data scientists dat als kind begon met programmeren is groter dan 35%.
Ons alternatief gebruikt "groter dan", dus we hebben een rechtszijdige toets nodig.
Een p-waarde is
de kans om een teststatistiek te zien
even extreem of extremer
dan in onze oorspronkelijke steekproef,
als de nulhypothese waar is.
prop_child_samp <- stack_overflow %>%
summarize(point_estimate = mean(age_first_code_cut == "child")) %>%
pull(point_estimate)
0.388
prop_child_hyp <- 0.35
std_error <- 0.0096028
z_score <- (prop_child_samp - prop_child_hyp) / std_error
3.956
pnorm() is de normale CDF.lower.tail = TRUE.lower.tail = FALSE.
p_value <- pnorm(z_score, lower.tail = FALSE)
3.818e-05
Hypothesis Testing in R