Calcular p-values a partir de t

Pruebas de hipótesis en Python

James Chapman

Curriculum Manager, DataCamp

t-distribuciones

  • La estadística t sigue una t-distribución
  • Tiene un parámetro llamado grados de libertad (df)
  • Se parecen a las normales, con colas más gruesas

Gráfico que muestra la PDF de una normal estándar comparada con una t con 1 grado de libertad. La t tiene colas más gruesas y un pico central más bajo.

Pruebas de hipótesis en Python

Grados de libertad

  • A mayor df $\rightarrow$ la t se acerca a la normal
  • Normal $\rightarrow$ t con df infinito
  • Grados de libertad: número máximo de valores lógicamente independientes en la muestra

Gráfico que muestra la PDF de una normal estándar comparada con una t con varios grados de libertad. Al aumentar los grados de libertad, las colas se estrechan y el pico sube, pareciéndose más a la normal.

Pruebas de hipótesis en Python

Calcular grados de libertad

  • Conjunto con 5 observaciones independientes
  • Cuatro valores: 2, 6, 8 y 5
  • La media muestral es 5
  • El último valor debe ser 4
  • Aquí hay 4 grados de libertad

 

  • $df = n_{child} + n_{adult} - 2$
Pruebas de hipótesis en Python

Hipótesis

$H_{0}$: La media de compensación (USD) es la misma para quienes empezaron de niños y para quienes empezaron de adultos

$H_{A}$: La media de compensación (USD) es mayor en quienes empezaron de niños que en quienes empezaron de adultos

 

Usa una prueba de cola derecha

Pruebas de hipótesis en Python

Nivel de significancia

$\alpha = 0.1$

Si $p \le \alpha$, rechaza $H_{0}$.

Pruebas de hipótesis en Python

Calcular p-values: una proporción vs. un valor

from scipy.stats import norm
1 - norm.cdf(z_score)

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

  • z: para estimar un parámetro poblacional con una sola estadística muestral

  • t: para estimar un parámetro poblacional con varias estadísticas muestrales

Pruebas de hipótesis en Python

Calcular p-values: dos medias de grupos distintos

numerator = xbar_child - xbar_adult
denominator = np.sqrt(s_child ** 2 / n_child + s_adult ** 2 / n_adult)
t_stat = numerator / denominator
1.8699313316221844
degrees_of_freedom = n_child + n_adult - 2
2259
Pruebas de hipótesis en Python

Calcular p-values: dos medias de grupos distintos

  • Usa la CDF t, no la normal
from scipy.stats import t
1 - t.cdf(t_stat, df=degrees_of_freedom)
0.030811302165157595
  • Evidencia de que en Stack Overflow quienes empezaron de niños ganan más.
Pruebas de hipótesis en Python

¡Vamos a practicar!

Pruebas de hipótesis en Python

Preparing Video For Download...