Pruebas de hipótesis en Python
James Chapman
Curriculum Manager, DataCamp
age_first_code_cut clasifica cuándo un usuario de Stack Overflow empezó a programar"adult" significa que empezó con 14 o más"child" significa que empezó antes de los 14Una hipótesis es una afirmación sobre un parámetro poblacional desconocido
Una prueba de hipótesis contrasta dos hipótesis en competencia
La hipótesis nula ($H_{0}$) es la idea existente
La hipótesis alternativa ($H_{A}$) es la nueva idea "desafiante" del investigador
Para nuestro problema:
El nivel de significación es el "más allá de toda duda razonable" de las pruebas de hipótesis

Las pruebas de hipótesis comprueban si las estadísticas muestrales caen en las colas de la distribución nula
| Prueba | Colas |
|---|---|
| alternativa distinta de la nula | dos colas |
| alternativa mayor que la nula | cola derecha |
| alternativa menor que la nula | cola izquierda |
$H_{A}$: La proporción de data scientists que empezaron a programar de niños es mayor que el 35%
Esta es una prueba de cola derecha

valores p: probabilidad de obtener un resultado asumiendo que la hipótesis nula es cierta
prop_child_samp = (stack_overflow['age_first_code_cut'] == "child").mean()
0.39141972578505085
prop_child_hyp = 0.35
std_error = np.std(first_code_boot_distn, ddof=1)
0.010351057228878566
z_score = (prop_child_samp - prop_child_hyp) / std_error
4.001497129152506
norm.cdf() es la CDF normal de scipy.stats.norm.cdf().1 - norm.cdf().
from scipy.stats import norm
1 - norm.cdf(z_score, loc=0, scale=1)
3.1471479512323874e-05
Pruebas de hipótesis en Python