Muestreo por conveniencia

Muestreo en Python

James Chapman

Curriculum Manager, DataCamp

La predicción electoral de The Literary Digest

Primera plana de The Literary Digest de 1936 con un titular de predicciones electorales. Se esperaba que Landon obtuviera 1,3 millones de votos y Roosevelt, poco menos de 1 millón.

  • Predicción: Landon 57%; Roosevelt 43%
  • Resultado real: Landon 38%; Roosevelt 62%
  • Muestra no representativa de la población: provoca sesgo de muestra
  • Recoger datos por el método más fácil se llama muestreo por conveniencia
Muestreo en Python

Encontrar la edad media de la población francesa

Una foto de Disneyland París.

  • Encuesta a 10 personas en Disneyland París
  • Edad media: 24,6 años
  • ¿Servirá como buena estimación para toda Francia?
1 Imagen de Sean MacEntee
Muestreo en Python

¿Qué tan precisa fue la encuesta?

Año Edad media en Francia
1975 31,6
1985 33,6
1995 36,2
2005 38,9
2015 41,2
  • 24,6 años es una mala estimación
  • Quienes visitan Disneyland no representan a toda la población
Muestreo en Python

Muestreo por conveniencia en calificaciones de café

coffee_ratings["total_cup_points"].mean()
82.15120328849028
coffee_ratings_first10 = coffee_ratings.head(10)
coffee_ratings_first10["total_cup_points"].mean()
89.1
Muestreo en Python

Visualizar el sesgo de selección

import matplotlib.pyplot as plt
import numpy as np
coffee_ratings["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()

 

coffee_ratings_first10["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()
Muestreo en Python

Distribución de una población y de una muestra por conveniencia

Población: Un histograma de puntos de taza de la población.

Muestra por conveniencia: Un histograma de puntos de taza de la muestra.

Muestreo en Python

Visualizar el sesgo de selección con una muestra aleatoria

coffee_sample = coffee_ratings.sample(n=10)
coffee_sample["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()
Muestreo en Python

Distribución de una población y de una muestra aleatoria simple

Población: Un histograma de puntos de taza de la población.

Muestra aleatoria: Un histograma de puntos de taza de una muestra aleatoria.

Muestreo en Python

¡Vamos a practicar!

Muestreo en Python

Preparing Video For Download...