Signification statistique

Tests d'hypothèses en Python

James Chapman

Curriculum Manager, DataCamp

Rappel sur la p-value

  • Les p-values quantifient la preuve en faveur de l’hypothèse nulle
  • Grande p-value → ne pas rejeter l’hypothèse nulle
  • Petite p-value → rejeter l’hypothèse nulle
  • Où placer le seuil ?
Tests d'hypothèses en Python

Niveau de signification

Le niveau de signification d’un test ($\alpha$) est le seuil pour « au-delà de tout doute raisonnable »

  • Valeurs courantes de $\alpha$ : 0.2, 0.1, 0.05, 0.01
  • Si $p \le \alpha$, rejeter $H_{0}$, sinon ne pas rejeter $H_{0}$
  • Fixer $\alpha$ avant de réaliser le test d’hypothèse
Tests d'hypothèses en Python

Calcul de la p-value

alpha = 0.05

prop_child_samp = (stack_overflow['age_first_code_cut'] == "child").mean() prop_child_hyp = 0.35
std_error = np.std(first_code_boot_distn, ddof=1)
z_score = (prop_child_samp - prop_child_hyp) / std_error
p_value = 1 - norm.cdf(z_score, loc=0, scale=1)
3.1471479512323874e-05
Tests d'hypothèses en Python

Prendre une décision

alpha = 0.05

print(p_value)
3.1471479512323874e-05
p_value <= alpha
True

Rejeter $H_{0}$ en faveur de $H_{A}$

Tests d'hypothèses en Python

Intervalles de confiance

Pour un niveau de signification $\alpha$, on choisit souvent un niveau d’intervalle de confiance de 1 − $\alpha$

  • $\alpha=0.05$ → intervalle de confiance à $95\%$
import numpy as np
lower = np.quantile(first_code_boot_distn, 0.025)
upper = np.quantile(first_code_boot_distn, 0.975)
print((lower, upper))
(0.37063246351172047, 0.41132242370632466)
Tests d'hypothèses en Python

Types d’erreurs

N’a vraiment pas commis le crime A vraiment commis le crime
Verdict non coupable correct il s’en est tiré
Verdict coupable condamnation à tort correct

 

vrai $H_{0}$ vrai $H_{A}$
choix $H_{0}$ correct faux négatif
choix $H_{A}$ faux positif correct

 

Les faux positifs sont des erreurs de type I ; les faux négatifs, des erreurs de type II.

Tests d'hypothèses en Python

Erreurs possibles dans notre exemple

Si $p \le \alpha$, on rejette $H_{0}$ :

  • Faux positif (type I) : les data scientists n’ont pas commencé à coder enfants à un taux plus élevé

Si $ p \gt \alpha$, on ne rejette pas $H_{0}$ :

  • Faux négatif (type II) : les data scientists ont commencé à coder enfants à un taux plus élevé
Tests d'hypothèses en Python

Passons à la pratique !

Tests d'hypothèses en Python

Preparing Video For Download...