Aannames bij hypothesetoetsen

Hypothesetoetsen in Python

James Chapman

Curriculum Manager, DataCamp

Willekeurigheid

Aanname

De steekproeven zijn willekeurige subsets van grotere populaties

Gevolg
  • Steekproef is niet representatief voor de populatie
Hoe check je dit
  • Begrijp hoe je data is verzameld
  • Praat met de dataverzamelaar/domeinexpert

Een logo met de tekst 'Responsibly Sourced Ingredients'.

1 Steekproeftrekkingen worden besproken in "Sampling in Python".
Hypothesetoetsen in Python

Onafhankelijkheid van observaties

Aanname

Elke observatie (rij) in de dataset is onafhankelijk

Gevolg
  • Grotere kans op fout-negatief/positief
Hoe check je dit
  • Begrijp hoe onze data is verzameld
Hypothesetoetsen in Python

Grote steekproef

Aanname

De steekproef is groot genoeg om onzekerheid te dempen, zodat de centrale limietstelling geldt

Gevolg
  • Breder betrouwbaarheidsinterval
  • Grotere kans op fout-negatief/positief
Hoe check je dit
  • Hangt af van de toets
Hypothesetoetsen in Python

Grote steekproef: t-toets

Één steekproef
  • Minstens 30 observaties in de steekproef

$n \ge 30$

$n$: steekproefgrootte

Twee steekproeven
  • Minstens 30 observaties in elke steekproef

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$: steekproefgrootte voor groep $i$

Gepaarde steekproeven
  • Minstens 30 paren observaties over de steekproeven

Aantal rijen in onze data $\ge 30$

ANOVA
  • Minstens 30 observaties in elke steekproef

$n_{i} \ge 30$ voor alle $i$

Hypothesetoetsen in Python

Grote steekproef: proportietoetsen

Één steekproef
  • Aantal successen in de steekproef is ≥ 10

$n \times \hat{p} \ge 10$

  • Aantal mislukkingen in de steekproef is ≥ 10

$n \times (1 - \hat{p}) \ge 10$

$n$: steekproefgrootte
$\hat{p}$: aandeel successen in de steekproef

Twee steekproeven
  • Aantal successen in elke steekproef is ≥ 10

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

  • Aantal mislukkingen in elke steekproef is ≥ 10

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Hypothesetoetsen in Python

Grote steekproef: chi-kwadraattoetsen

  • Het aantal successen in elke groep is ≥ 5

$n_{i} \times \hat{p}_{i} \ge 5$ voor alle $i$

  • Het aantal mislukkingen in elke groep is ≥ 5

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ voor alle $i$

$n_{i}$: steekproefgrootte voor groep $i$
$\hat{p}_{i}$: aandeel successen in groep $i$

Hypothesetoetsen in Python

Reality check

Als de bootstrapverdeling niet normaal oogt, zijn de aannames waarschijnlijk ongeldig

  • Check je dataverzameling op toeval, onafhankelijkheid en steekproefgrootte
Hypothesetoetsen in Python

Laten we oefenen!

Hypothesetoetsen in Python

Preparing Video For Download...