p-waardes berekenen uit t-statistieken

Hypothesis Testing in R

Richie Cotton

Data Evangelist at DataCamp

t-verdelingen

  • De teststatistiek t volgt een t-verdeling.
  • t-verdelingen hebben een parameter: vrijheidsgraden (df).
  • t-verdelingen lijken op normale verdelingen, met dikkere staarten.

Grafiek met de PDF van een standaardnormale verdeling vergeleken met een t-verdeling met 1 vrijheidsgraad. De t-verdeling heeft dikkere staarten en een lagere piek in het midden.

Hypothesis Testing in R

Vrijheidsgraden

  • Als je de vrijheidsgraden vergroot, nadert de t-verdeling de normale verdeling.
  • Een normale verdeling is een t-verdeling met oneindig veel vrijheidsgraden.
  • Vrijheidsgraden zijn het maximale aantal logisch onafhankelijke waarden in de steekproef.

Grafiek met de PDF van een standaardnormale verdeling vergeleken met t-verdelingen met diverse vrijheidsgraden. Naarmate de vrijheidsgraden toenemen, worden de staarten smaller en de piek hoger, meer gelijkend op de normale verdeling.

Hypothesis Testing in R

Vrijheidsgraden berekenen

  • Stel: je dataset heeft 5 onafhankelijke observaties.
  • Vier waarden zijn 2, 6, 8 en 5.
  • Je weet ook dat het steekproefgemiddelde 5 is.
  • De laatste waarde is niet meer onafhankelijk; die moet 4 zijn.
  • Er zijn 4 vrijheidsgraden.
  • $df = n_{child} + n_{adult} - 2$
Hypothesis Testing in R

Hypothesen

$H_{0}$: De gemiddelde beloning (in USD) is gelijk voor wie eerst als kind codeerde en wie eerst als volwassene codeerde.

$H_{A}$: De gemiddelde beloning (in USD) is hoger voor wie eerst als kind codeerde dan voor wie eerst als volwassene codeerde.

 

Gebruik een rechtseenzijdige test.

Hypothesis Testing in R

Significantieniveau

$\alpha = 0.1$

Als $p \le \alpha$, verwerp $H_{0}$.

Hypothesis Testing in R

p-waardes berekenen: één proportie vs. een waarde

p_value <- pnorm(z_score, lower.tail = FALSE)
Hypothesis Testing in R

p-waardes berekenen: twee gemiddelden uit verschillende groepen

numerator <- xbar_child - xbar_adult
denominator <- sqrt(s_child ^ 2 / n_child + s_adult ^ 2 / n_adult)
t_stat <- numerator / denominator
2.4046
degrees_of_freedom <- n_child + n_adult - 2
2578
  • Standaardfout van de teststatistiek is benaderd (geen bootstrapping).
  • Gebruik de CDF van de t-verdeling, niet die van de normale verdeling.
p_value <- pt(t_stat, df = degrees_of_freedom, lower.tail = FALSE)
0.008130
Hypothesis Testing in R

Laten we oefenen!

Hypothesis Testing in R

Preparing Video For Download...