Hypothèses des tests d’hypothèse

Tests d'hypothèses en Python

James Chapman

Curriculum Manager, DataCamp

Aléatorité

Hypothèse

Les échantillons sont des sous-ensembles aléatoires de populations plus larges

Conséquence
  • L’échantillon n’est pas représentatif de la population
Comment vérifier
  • Comprendre comment vos données ont été collectées
  • Parler au collecteur de données/experte·expert du domaine

Un logo avec la phrase « Responsibly Sourced Ingredients ».

1 Les techniques d’échantillonnage sont traitées dans « Sampling in Python ».
Tests d'hypothèses en Python

Indépendance des observations

Hypothèse

Chaque observation (ligne) du jeu de données est indépendante

Conséquence
  • Risque accru d’erreurs faux négatif/positif
Comment vérifier
  • Comprendre comment nos données ont été collectées
Tests d'hypothèses en Python

Grande taille d’échantillon

Hypothèse

L’échantillon est assez grand pour réduire l’incertitude, donc le théorème central limite s’applique

Conséquence
  • Intervalles de confiance plus larges
  • Risque accru d’erreurs faux négatif/positif
Comment vérifier
  • Cela dépend du test
Tests d'hypothèses en Python

Grande taille d’échantillon : test t

Un échantillon
  • Au moins 30 observations dans l’échantillon

$n \ge 30$

$n$ : taille d’échantillon

Deux échantillons
  • Au moins 30 observations dans chaque échantillon

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$ : taille d’échantillon du groupe $i$

Échantillons appariés
  • Au moins 30 paires d’observations entre les échantillons

Nombre de lignes dans nos données $\ge 30$

ANOVA
  • Au moins 30 observations dans chaque échantillon

$n_{i} \ge 30$ pour tout $i$

Tests d'hypothèses en Python

Grande taille d’échantillon : tests de proportion

Un échantillon
  • Nombre de succès dans l’échantillon ≥ 10

$n \times \hat{p} \ge 10$

  • Nombre d’échecs dans l’échantillon ≥ 10

$n \times (1 - \hat{p}) \ge 10$

$n$ : taille d’échantillon
$\hat{p}$ : proportion de succès dans l’échantillon

Deux échantillons
  • Nombre de succès dans chaque échantillon ≥ 10

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

  • Nombre d’échecs dans chaque échantillon ≥ 10

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Tests d'hypothèses en Python

Grande taille d’échantillon : tests du chi carré

  • Nombre de succès dans chaque groupe ≥ 5

$n_{i} \times \hat{p}_{i} \ge 5$ pour tout $i$

  • Nombre d’échecs dans chaque groupe ≥ 5

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ pour tout $i$

$n_{i}$ : taille d’échantillon du groupe $i$
$\hat{p}_{i}$ : proportion de succès dans le groupe $i$

Tests d'hypothèses en Python

Vérification de cohérence

Si la distribution bootstrap n’est pas normale, les hypothèses sont probablement invalides

  • Revoir la collecte des données pour vérifier la randomisation, l’indépendance et la taille d’échantillon
Tests d'hypothèses en Python

Passons à la pratique !

Tests d'hypothèses en Python

Preparing Video For Download...