Aannames bij hypothesetoetsen

Hypothesis Testing in R

Richie Cotton

Data Evangelist at DataCamp

Willekeurigheid

Aanname

De steekproeven zijn willekeurige subsets van grotere populaties.

Gevolg

Steekproef is niet representatief voor de populatie.

Hoe check je dit

Begrijp hoe je data is verzameld.
Praat met de dataverzamelaar/domeinexpert.

Een logo met de tekst 'Responsibly Sourced Ingredients'.

¹ Steekproeftechnieken worden besproken in "Sampling in R".

Onafhankelijkheid van observaties

Aanname

Elke observatie (rij) in de dataset is onafhankelijk.

Gevolg

Grotere kans op fout-negatief/-positief.

Hoe check je dit

Begrijp hoe je data is verzameld.

Grote steekproefomvang

Aanname

De steekproef is groot genoeg om onzekerheid te beperken en zodat de Centrale Limietstelling geldt.

Gevolg

Zeer brede betrouwbaarheidsintervallen.
Grotere kans op fout-negatief/-positief.

Hoe check je dit

Het hangt af van de toets.

Grote n: t-toets

Één steekproef

Minstens 30$^{1}$ observaties in de steekproef.

$n \ge 30$

$n$: steekproefgrootte

Twee steekproeven

Minstens 30 observaties in elke steekproef.

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$: steekproefgrootte voor groep $i$

Gepaarde steekproeven

Minstens 30 paren observaties over de steekproeven.

Aantal rijen in je data $\ge 30$

ANOVA

Minstens 30 observaties per steekproef.

$n_{i} \ge 30$ voor alle $i$

¹ Soms kan het met minder dan 30; belangrijk is dat de nulverdeling normaal lijkt.

Grote n: proportietoetsen

Één steekproef

Aantal successen in de steekproef is ≥ 10.

$n \times \hat{p} \ge 10$

Aantal mislukkingen in de steekproef is ≥ 10.

$n \times (1 - \hat{p}) \ge 10$

$n$: steekproefgrootte
$\hat{p}$: aandeel successen in de steekproef

Twee steekproeven

Aantal successen in elke steekproef is ≥ 10.

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

Aantal mislukkingen in elke steekproef is ≥ 10.

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Grote n: chikwadraattoetsen

Aantal successen in elke groep is ≥ 5.

$n_{i} \times \hat{p}_{i} \ge 5$ voor alle $i$

Aantal mislukkingen in elke groep is ≥ 5.

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ voor alle $i$

$n_{i}$: steekproefgrootte voor groep $i$
$\hat{p}_{i}$: aandeel successen in groep $i$

Sanity check

Als de bootstrapverdeling niet normaal lijkt, zijn de aannames waarschijnlijk ongeldig.

Laten we oefenen!

Hypothesis Testing in R