Tests de proportion à un échantillon

Tests d'hypothèses en Python

James Chapman

Curriculum Manager, DataCamp

Récapitulatif du chapitre 1

Une affirmation sur une proportion populationnelle inconnue est-elle plausible ?

Erreur standard de la statistique d’échantillon via bootstrap
Calculer une statistique de test standardisée
Calculer une p-valeur
Choisir l’hypothèse la plus cohérente

Maintenant, calculez la statistique de test sans bootstrap

Statistique de test standardisée pour des proportions

$p$ : proportion de la population (paramètre inconnu)

$\hat{p}$ : proportion de l’échantillon (statistique)

$p_{0}$ : proportion hypothétique de la population

$$ z = \frac{\hat{p} - \text{mean}(\hat{p})}{\text{SE}(\hat{p})} = \frac{\hat{p} - p}{\text{SE}(\hat{p})} $$

En supposant $H_{0}$ vraie, $p = p_{0}$, donc

$$ z = \dfrac{\hat{p} - p_{0}}{\text{SE}(\hat{p})} $$

Simplifier le calcul de l’erreur standard

$SE_{\hat{p}} = \sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}$ $\rightarrow$ Sous $H_0$, $SE_{\hat{p}}$ dépend de $p_0$ et de la taille $n$

En supposant $H_{0}$ vraie,

$z = \dfrac{\hat{p} - p_{0}}{\sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}}$

Utilise seulement les infos d’échantillon ($\hat{p}$ et $n$) et le paramètre supposé ($p_{0}$)

Pourquoi z et pas t ?

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$

$s$ est calculé à partir de $\bar{x}$
- $\bar{x}$ estime la moyenne populationnelle
- $s$ estime l’écart type populationnel
- $\uparrow$ incertitude sur l’estimation du paramètre
Loi t : queues plus épaisses que la normale
$\hat{p}$ n’apparaît qu’au numérateur, donc les z-scores conviennent

Catégories d’âge sur Stack Overflow

$H_{0}$ : Proportion d’utilisateurs de Stack Overflow de moins de 30 ans $=0{,}5$

$H_{A}$ : Proportion d’utilisateurs de Stack Overflow de moins de 30 ans $\neq0{,}5$

alpha = 0.01

stack_overflow['age_cat'].value_counts(normalize=True)

Under 30       0.535604
At least 30    0.464396
Name: age_cat, dtype: float64

Variables pour z

p_hat = (stack_overflow['age_cat'] == 'Under 30').mean()

0.5356037151702786

p_0 = 0.50

n = len(stack_overflow)

Calcul du score z

$z = \dfrac{\hat{p} - p_{0}}{\sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}}$

import numpy as np
numerator = p_hat - p_0
denominator = np.sqrt(p_0 * (1 - p_0) / n)
z_score = numerator / denominator

3.385911440783663

Calcul de la p-valeur

FDR de la loi normale. La partie < -2 est en rouge et la partie > 2 est en vert. Unilatéral à gauche (« inférieur à ») :

from scipy.stats import norm
p_value = norm.cdf(z_score)

Unilatéral à droite (« supérieur à ») :

p_value = 1 - norm.cdf(z_score)

Bilatéral (« différent de ») :

p_value = norm.cdf(-z_score) + 
  1 - norm.cdf(z_score)

p_value = 2 * (1 - norm.cdf(z_score))

0.0007094227368100725

p_value <= alpha

True

Passons à la pratique !

Tests d'hypothèses en Python