Échantillonnage de convenance

L’échantillonnage en Python

James Chapman

Curriculum Manager, DataCamp

La prédiction électorale du Literary Digest

La une du Literary Digest de 1936 annonçant des prévisions électorales. Landon devait obtenir 1,3 million de voix et Roosevelt un peu moins d’un million.

Prévision : Landon 57 % ; Roosevelt 43 %
Résultats réels : Landon 38 % ; Roosevelt 62 %
Échantillon non représentatif de la population, entraînant un biais d’échantillonnage
Collecter des données par la méthode la plus simple s’appelle l’échantillonnage de convenance

Trouver l’âge moyen des Français

Une photo de Disneyland Paris.

Interroger 10 personnes à Disneyland Paris
Âge moyen : 24,6 ans
Est-ce une bonne estimation pour toute la France ?

¹ Image par Sean MacEntee

Quelle était la précision de l’enquête ?

Année	Âge moyen en France
1975	31,6
1985	33,6
1995	36,2
2005	38,9
2015	41,2

24,6 ans est une mauvaise estimation
Les visiteurs de Disneyland ne représentent pas l’ensemble de la population

Notes de café avec échantillonnage de convenance

coffee_ratings["total_cup_points"].mean()

82.15120328849028

coffee_ratings_first10 = coffee_ratings.head(10)

coffee_ratings_first10["total_cup_points"].mean()

89.1

Visualiser le biais de sélection

import matplotlib.pyplot as plt
import numpy as np
coffee_ratings["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()

coffee_ratings_first10["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()

Distribution d’une population et d’un échantillon de convenance

Population : Un histogramme des points de tasse pour la population.

Échantillon de convenance : Un histogramme des points de tasse pour l’échantillon.

Visualiser le biais de sélection pour un échantillon aléatoire

coffee_sample = coffee_ratings.sample(n=10)
coffee_sample["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()

Distribution d’une population et d’un échantillon aléatoire simple

Population : Un histogramme des points de tasse pour la population.

Échantillon aléatoire : Un histogramme des points de tasse pour un échantillon aléatoire.

Passons à la pratique !

L’échantillonnage en Python