Supuestos en las pruebas de hipótesis

Pruebas de hipótesis en Python

James Chapman

Curriculum Manager, DataCamp

Aleatoriedad

Supuesto

Las muestras son subconjuntos aleatorios de poblaciones mayores

Consecuencia
  • La muestra no representa a la población
Cómo comprobarlo
  • Entiende cómo se recolectaron tus datos
  • Habla con la persona que los recolectó/experta del dominio

Un logotipo con la frase "Responsibly Sourced Ingredients".

1 Las técnicas de muestreo se tratan en "Sampling in Python".
Pruebas de hipótesis en Python

Independencia de las observaciones

Supuesto

Cada observación (fila) del conjunto de datos es independiente

Consecuencia
  • Mayor riesgo de falsos negativos/positivos
Cómo comprobarlo
  • Entiende cómo se recolectaron los datos
Pruebas de hipótesis en Python

Tamaño de muestra grande

Supuesto

La muestra es lo bastante grande para reducir la incertidumbre y que se aplique el Teorema Central del Límite

Consecuencia
  • Intervalos de confianza más amplios
  • Mayor riesgo de falsos negativos/positivos
Cómo comprobarlo
  • Depende de la prueba
Pruebas de hipótesis en Python

Tamaño de muestra grande: prueba t

Una muestra
  • Al menos 30 observaciones en la muestra

$n \ge 30$

$n$: tamaño de muestra

Dos muestras
  • Al menos 30 observaciones en cada muestra

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$: tamaño de muestra del grupo $i$

Muestras pareadas
  • Al menos 30 pares de observaciones entre las muestras

Número de filas en los datos $\ge 30$

ANOVA
  • Al menos 30 observaciones en cada muestra

$n_{i} \ge 30$ para todo $i$

Pruebas de hipótesis en Python

Muestra grande: pruebas de proporciones

Una muestra
  • Éxitos en la muestra ≥ 10

$n \times \hat{p} \ge 10$

  • Fracasos en la muestra ≥ 10

$n \times (1 - \hat{p}) \ge 10$

$n$: tamaño de muestra
$\hat{p}$: proporción de éxitos en la muestra

Dos muestras
  • Éxitos en cada muestra ≥ 10

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

  • Fracasos en cada muestra ≥ 10

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Pruebas de hipótesis en Python

Muestra grande: pruebas ji-cuadrado

  • Éxitos en cada grupo ≥ 5

$n_{i} \times \hat{p}_{i} \ge 5$ para todo $i$

  • Fracasos en cada grupo ≥ 5

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ para todo $i$

$n_{i}$: tamaño de muestra del grupo $i$
$\hat{p}_{i}$: proporción de éxitos en el grupo $i$

Pruebas de hipótesis en Python

Comprobación rápida

Si la distribución bootstrap no parece normal, los supuestos probablemente no se cumplen

  • Revisa la recolección de datos: aleatoriedad, independencia y tamaño de muestra
Pruebas de hipótesis en Python

¡Vamos a practicar!

Pruebas de hipótesis en Python

Preparing Video For Download...