Aannames bij hypothesetoetsen

Hypothesetoetsen in Python

James Chapman

Curriculum Manager, DataCamp

Willekeurigheid

Aanname

De steekproeven zijn willekeurige subsets van grotere populaties

Gevolg

Steekproef is niet representatief voor de populatie

Hoe check je dit

Begrijp hoe je data is verzameld
Praat met de dataverzamelaar/domeinexpert

Een logo met de tekst 'Responsibly Sourced Ingredients'.

¹ Steekproeftrekkingen worden besproken in "Sampling in Python".

Onafhankelijkheid van observaties

Aanname

Elke observatie (rij) in de dataset is onafhankelijk

Gevolg

Grotere kans op fout-negatief/positief

Hoe check je dit

Begrijp hoe onze data is verzameld

Grote steekproef

Aanname

De steekproef is groot genoeg om onzekerheid te dempen, zodat de centrale limietstelling geldt

Gevolg

Breder betrouwbaarheidsinterval
Grotere kans op fout-negatief/positief

Hoe check je dit

Hangt af van de toets

Grote steekproef: t-toets

Één steekproef

Minstens 30 observaties in de steekproef

$n \ge 30$

$n$: steekproefgrootte

Twee steekproeven

Minstens 30 observaties in elke steekproef

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$: steekproefgrootte voor groep $i$

Gepaarde steekproeven

Minstens 30 paren observaties over de steekproeven

Aantal rijen in onze data $\ge 30$

ANOVA

Minstens 30 observaties in elke steekproef

$n_{i} \ge 30$ voor alle $i$

Grote steekproef: proportietoetsen

Één steekproef

Aantal successen in de steekproef is ≥ 10

$n \times \hat{p} \ge 10$

Aantal mislukkingen in de steekproef is ≥ 10

$n \times (1 - \hat{p}) \ge 10$

$n$: steekproefgrootte
$\hat{p}$: aandeel successen in de steekproef

Twee steekproeven

Aantal successen in elke steekproef is ≥ 10

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

Aantal mislukkingen in elke steekproef is ≥ 10

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Grote steekproef: chi-kwadraattoetsen

Het aantal successen in elke groep is ≥ 5

$n_{i} \times \hat{p}_{i} \ge 5$ voor alle $i$

Het aantal mislukkingen in elke groep is ≥ 5

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ voor alle $i$

$n_{i}$: steekproefgrootte voor groep $i$
$\hat{p}_{i}$: aandeel successen in groep $i$

Reality check

Als de bootstrapverdeling niet normaal oogt, zijn de aannames waarschijnlijk ongeldig

Check je dataverzameling op toeval, onafhankelijkheid en steekproefgrootte

Laten we oefenen!

Hypothesetoetsen in Python