Tests d'hypothèses en Python
James Chapman
Curriculum Manager, DataCamp
age_first_code_cut classe quand un utilisateur Stack Overflow a commencé à programmer"adult" signifie à 14 ans ou plus"child" signifie avant 14 ansUne hypothèse est une affirmation sur un paramètre de population inconnu
Un test d’hypothèse oppose deux hypothèses concurrentes
L’hypothèse nulle ($H_{0}$) est l’idée existante
L’hypothèse alternative ($H_{A}$) est la nouvelle idée « challenger » du chercheur
Pour notre problème :
Le seuil de signification est l’équivalent du « doute raisonnable » pour les tests d’hypothèse

Les tests d’hypothèse vérifient si la statistique d’échantillon se situe dans les queues de la distribution nulle
| Test | Queues |
|---|---|
| alternative différente de la nulle | bilatéral |
| alternative supérieure à la nulle | unilatéral droit |
| alternative inférieure à la nulle | unilatéral gauche |
$H_{A}$ : La proportion de data scientists ayant commencé enfant est supérieure à 35 %
C’est un test unilatéral droit

valeurs p : probabilité d’obtenir un résultat en supposant l’hypothèse nulle vraie
prop_child_samp = (stack_overflow['age_first_code_cut'] == "child").mean()
0.39141972578505085
prop_child_hyp = 0.35
std_error = np.std(first_code_boot_distn, ddof=1)
0.010351057228878566
z_score = (prop_child_samp - prop_child_hyp) / std_error
4.001497129152506
norm.cdf() est la CDF normale de scipy.stats.norm.cdf().1 - norm.cdf().
from scipy.stats import norm
1 - norm.cdf(z_score, loc=0, scale=1)
3.1471479512323874e-05
Tests d'hypothèses en Python