Hypothèses des tests d’hypothèse

Tests d'hypothèses en Python

James Chapman

Curriculum Manager, DataCamp

Aléatorité

Hypothèse

Les échantillons sont des sous-ensembles aléatoires de populations plus larges

Conséquence

L’échantillon n’est pas représentatif de la population

Comment vérifier

Comprendre comment vos données ont été collectées
Parler au collecteur de données/experte·expert du domaine

Un logo avec la phrase « Responsibly Sourced Ingredients ».

¹ Les techniques d’échantillonnage sont traitées dans « Sampling in Python ».

Indépendance des observations

Hypothèse

Chaque observation (ligne) du jeu de données est indépendante

Conséquence

Risque accru d’erreurs faux négatif/positif

Comment vérifier

Comprendre comment nos données ont été collectées

Grande taille d’échantillon

Hypothèse

L’échantillon est assez grand pour réduire l’incertitude, donc le théorème central limite s’applique

Conséquence

Intervalles de confiance plus larges
Risque accru d’erreurs faux négatif/positif

Comment vérifier

Cela dépend du test

Grande taille d’échantillon : test t

Un échantillon

Au moins 30 observations dans l’échantillon

$n \ge 30$

$n$ : taille d’échantillon

Deux échantillons

Au moins 30 observations dans chaque échantillon

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$ : taille d’échantillon du groupe $i$

Échantillons appariés

Au moins 30 paires d’observations entre les échantillons

Nombre de lignes dans nos données $\ge 30$

ANOVA

Au moins 30 observations dans chaque échantillon

$n_{i} \ge 30$ pour tout $i$

Grande taille d’échantillon : tests de proportion

Un échantillon

Nombre de succès dans l’échantillon ≥ 10

$n \times \hat{p} \ge 10$

Nombre d’échecs dans l’échantillon ≥ 10

$n \times (1 - \hat{p}) \ge 10$

$n$ : taille d’échantillon
$\hat{p}$ : proportion de succès dans l’échantillon

Deux échantillons

Nombre de succès dans chaque échantillon ≥ 10

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

Nombre d’échecs dans chaque échantillon ≥ 10

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Grande taille d’échantillon : tests du chi carré

Nombre de succès dans chaque groupe ≥ 5

$n_{i} \times \hat{p}_{i} \ge 5$ pour tout $i$

Nombre d’échecs dans chaque groupe ≥ 5

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ pour tout $i$

$n_{i}$ : taille d’échantillon du groupe $i$
$\hat{p}_{i}$ : proportion de succès dans le groupe $i$

Vérification de cohérence

Si la distribution bootstrap n’est pas normale, les hypothèses sont probablement invalides

Revoir la collecte des données pour vérifier la randomisation, l’indépendance et la taille d’échantillon

Passons à la pratique !

Tests d'hypothèses en Python