Calcul des p-values à partir de statistiques t

Tests d'hypothèses en Python

James Chapman

Curriculum Manager, DataCamp

Lois t

  • La statistique t suit une loi t
  • Paramètre appelé degrés de liberté (df)
  • Ressemblent aux lois normales, avec des queues plus épaisses

Graphique montrant la PDF d’une loi normale standard comparée à une loi t avec 1 degré de liberté. La loi t a des queues plus épaisses et un pic central plus bas.

Tests d'hypothèses en Python

Degrés de liberté

  • Plus les degrés de liberté augmentent $\rightarrow$ la loi t se rapproche de la normale
  • Loi normale $\rightarrow$ loi t avec df infinis
  • Degrés de liberté : nombre maximal de valeurs logiquement indépendantes dans l’échantillon

Graphique montrant la PDF d’une loi normale standard comparée à une loi t avec divers degrés de liberté. Quand les degrés de liberté augmentent, les queues s’affinent et le pic s’élève, se rapprochant de la normale.

Tests d'hypothèses en Python

Calcul des degrés de liberté

  • Jeu de données avec 5 observations indépendantes
  • Quatre valeurs : 2, 6, 8 et 5
  • La moyenne d’échantillon est 5
  • La dernière valeur doit être 4
  • Ici, il y a 4 degrés de liberté

 

  • $df = n_{child} + n_{adult} - 2$
Tests d'hypothèses en Python

Hypothèses

$H_{0}$ : La rémunération moyenne (USD) est la même pour ceux qui ont commencé enfants et ceux qui ont commencé adultes

$H_{A}$ : La rémunération moyenne (USD) est plus élevée pour ceux qui ont commencé enfants que pour ceux qui ont commencé adultes

 

Utiliser un test à droite

Tests d'hypothèses en Python

Niveau de signification

$\alpha = 0{,}1$

Si $p \le \alpha$, alors on rejette $H_{0}$.

Tests d'hypothèses en Python

Calcul des p-values : une proportion vs. une valeur

from scipy.stats import norm
1 - norm.cdf(z_score)

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

  • statistique z : quand on utilise une statistique d’échantillon unique pour estimer un paramètre de population

  • statistique t : quand on utilise plusieurs statistiques d’échantillon pour estimer un paramètre de population

Tests d'hypothèses en Python

Calcul des p-values : deux moyennes de groupes différents

numerator = xbar_child - xbar_adult
denominator = np.sqrt(s_child ** 2 / n_child + s_adult ** 2 / n_adult)
t_stat = numerator / denominator
1.8699313316221844
degrees_of_freedom = n_child + n_adult - 2
2259
Tests d'hypothèses en Python

Calcul des p-values : deux moyennes de groupes différents

  • Utiliser la CDF de la loi t, pas la CDF normale
from scipy.stats import t
1 - t.cdf(t_stat, df=degrees_of_freedom)
0.030811302165157595
  • Indice que les data scientists de Stack Overflow ayant commencé enfants gagnent plus.
Tests d'hypothèses en Python

Passons à la pratique !

Tests d'hypothèses en Python

Preparing Video For Download...