Échantillonnage de convenance

L’échantillonnage en Python

James Chapman

Curriculum Manager, DataCamp

La prédiction électorale du Literary Digest

La une du Literary Digest de 1936 annonçant des prévisions électorales. Landon devait obtenir 1,3 million de voix et Roosevelt un peu moins d’un million.

  • Prévision : Landon 57 % ; Roosevelt 43 %
  • Résultats réels : Landon 38 % ; Roosevelt 62 %
  • Échantillon non représentatif de la population, entraînant un biais d’échantillonnage
  • Collecter des données par la méthode la plus simple s’appelle l’échantillonnage de convenance
L’échantillonnage en Python

Trouver l’âge moyen des Français

Une photo de Disneyland Paris.

  • Interroger 10 personnes à Disneyland Paris
  • Âge moyen : 24,6 ans
  • Est-ce une bonne estimation pour toute la France ?
1 Image par Sean MacEntee
L’échantillonnage en Python

Quelle était la précision de l’enquête ?

Année Âge moyen en France
1975 31,6
1985 33,6
1995 36,2
2005 38,9
2015 41,2
  • 24,6 ans est une mauvaise estimation
  • Les visiteurs de Disneyland ne représentent pas l’ensemble de la population
L’échantillonnage en Python

Notes de café avec échantillonnage de convenance

coffee_ratings["total_cup_points"].mean()
82.15120328849028
coffee_ratings_first10 = coffee_ratings.head(10)
coffee_ratings_first10["total_cup_points"].mean()
89.1
L’échantillonnage en Python

Visualiser le biais de sélection

import matplotlib.pyplot as plt
import numpy as np
coffee_ratings["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()

 

coffee_ratings_first10["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()
L’échantillonnage en Python

Distribution d’une population et d’un échantillon de convenance

Population : Un histogramme des points de tasse pour la population.

Échantillon de convenance : Un histogramme des points de tasse pour l’échantillon.

L’échantillonnage en Python

Visualiser le biais de sélection pour un échantillon aléatoire

coffee_sample = coffee_ratings.sample(n=10)
coffee_sample["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()
L’échantillonnage en Python

Distribution d’une population et d’un échantillon aléatoire simple

Population : Un histogramme des points de tasse pour la population.

Échantillon aléatoire : Un histogramme des points de tasse pour un échantillon aléatoire.

L’échantillonnage en Python

Passons à la pratique !

L’échantillonnage en Python

Preparing Video For Download...