Supuestos en las pruebas de hipótesis

Pruebas de hipótesis en Python

James Chapman

Curriculum Manager, DataCamp

Aleatoriedad

Supuesto

Las muestras son subconjuntos aleatorios de poblaciones mayores

Consecuencia

La muestra no representa a la población

Cómo comprobarlo

Entiende cómo se recolectaron tus datos
Habla con la persona que los recolectó/experta del dominio

Un logotipo con la frase "Responsibly Sourced Ingredients".

¹ Las técnicas de muestreo se tratan en "Sampling in Python".

Independencia de las observaciones

Supuesto

Cada observación (fila) del conjunto de datos es independiente

Consecuencia

Mayor riesgo de falsos negativos/positivos

Cómo comprobarlo

Entiende cómo se recolectaron los datos

Tamaño de muestra grande

Supuesto

La muestra es lo bastante grande para reducir la incertidumbre y que se aplique el Teorema Central del Límite

Consecuencia

Intervalos de confianza más amplios
Mayor riesgo de falsos negativos/positivos

Cómo comprobarlo

Depende de la prueba

Tamaño de muestra grande: prueba t

Una muestra

Al menos 30 observaciones en la muestra

$n \ge 30$

$n$: tamaño de muestra

Dos muestras

Al menos 30 observaciones en cada muestra

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$: tamaño de muestra del grupo $i$

Muestras pareadas

Al menos 30 pares de observaciones entre las muestras

Número de filas en los datos $\ge 30$

ANOVA

Al menos 30 observaciones en cada muestra

$n_{i} \ge 30$ para todo $i$

Muestra grande: pruebas de proporciones

Una muestra

Éxitos en la muestra ≥ 10

$n \times \hat{p} \ge 10$

Fracasos en la muestra ≥ 10

$n \times (1 - \hat{p}) \ge 10$

$n$: tamaño de muestra
$\hat{p}$: proporción de éxitos en la muestra

Dos muestras

Éxitos en cada muestra ≥ 10

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

Fracasos en cada muestra ≥ 10

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Muestra grande: pruebas ji-cuadrado

Éxitos en cada grupo ≥ 5

$n_{i} \times \hat{p}_{i} \ge 5$ para todo $i$

Fracasos en cada grupo ≥ 5

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ para todo $i$

$n_{i}$: tamaño de muestra del grupo $i$
$\hat{p}_{i}$: proporción de éxitos en el grupo $i$

Comprobación rápida

Si la distribución bootstrap no parece normal, los supuestos probablemente no se cumplen

Revisa la recolección de datos: aleatoriedad, independencia y tamaño de muestra

¡Vamos a practicar!

Pruebas de hipótesis en Python