Aannames bij hypothesetoetsen

Hypothesis Testing in R

Richie Cotton

Data Evangelist at DataCamp

Willekeurigheid

Aanname

De steekproeven zijn willekeurige subsets van grotere populaties.

Gevolg
  • Steekproef is niet representatief voor de populatie.
Hoe check je dit
  • Begrijp hoe je data is verzameld.
  • Praat met de dataverzamelaar/domeinexpert.

Een logo met de tekst 'Responsibly Sourced Ingredients'.

1 Steekproeftechnieken worden besproken in "Sampling in R".
Hypothesis Testing in R

Onafhankelijkheid van observaties

Aanname

Elke observatie (rij) in de dataset is onafhankelijk.

Gevolg
  • Grotere kans op fout-negatief/-positief.
Hoe check je dit
  • Begrijp hoe je data is verzameld.
Hypothesis Testing in R

Grote steekproefomvang

Aanname

De steekproef is groot genoeg om onzekerheid te beperken en zodat de Centrale Limietstelling geldt.

Gevolg
  • Zeer brede betrouwbaarheidsintervallen.
  • Grotere kans op fout-negatief/-positief.
Hoe check je dit
  • Het hangt af van de toets.
Hypothesis Testing in R

Grote n: t-toets

Één steekproef
  • Minstens 30$^{1}$ observaties in de steekproef.

$n \ge 30$

$n$: steekproefgrootte

Twee steekproeven
  • Minstens 30 observaties in elke steekproef.

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$: steekproefgrootte voor groep $i$

Gepaarde steekproeven
  • Minstens 30 paren observaties over de steekproeven.

Aantal rijen in je data $\ge 30$

ANOVA
  • Minstens 30 observaties per steekproef.

$n_{i} \ge 30$ voor alle $i$

1 Soms kan het met minder dan 30; belangrijk is dat de nulverdeling normaal lijkt.
Hypothesis Testing in R

Grote n: proportietoetsen

Één steekproef
  • Aantal successen in de steekproef is ≥ 10.

$n \times \hat{p} \ge 10$

  • Aantal mislukkingen in de steekproef is ≥ 10.

$n \times (1 - \hat{p}) \ge 10$

$n$: steekproefgrootte
$\hat{p}$: aandeel successen in de steekproef

Twee steekproeven
  • Aantal successen in elke steekproef is ≥ 10.

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

  • Aantal mislukkingen in elke steekproef is ≥ 10.

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Hypothesis Testing in R

Grote n: chikwadraattoetsen

  • Aantal successen in elke groep is ≥ 5.

$n_{i} \times \hat{p}_{i} \ge 5$ voor alle $i$

  • Aantal mislukkingen in elke groep is ≥ 5.

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ voor alle $i$

$n_{i}$: steekproefgrootte voor groep $i$
$\hat{p}_{i}$: aandeel successen in groep $i$

Hypothesis Testing in R

Sanity check

Als de bootstrapverdeling niet normaal lijkt, zijn de aannames waarschijnlijk ongeldig.

Hypothesis Testing in R

Laten we oefenen!

Hypothesis Testing in R

Preparing Video For Download...