Steekproef uit gemak

Steekproeven in Python

James Chapman

Curriculum Manager, DataCamp

De verkiezingsvoorspelling van The Literary Digest

Een voorpagina van The Literary Digest uit 1936 met een kop over verkiezingsvoorspellingen. Landon zou 1,3 miljoen stemmen krijgen en Roosevelt net onder 1 miljoen.

  • Voorspelling: Landon 57%; Roosevelt 43%
  • Werkelijke uitslag: Landon 38%; Roosevelt 62%
  • Steekproef niet representatief voor populatie → steekproefbias
  • Data verzamelen op de makkelijkste manier heet gemakssteekproef
Steekproeven in Python

De gemiddelde leeftijd van Fransen bepalen

Een foto van Disneyland Parijs.

  • Enquête onder 10 mensen in Disneyland Parijs
  • Gemiddelde leeftijd: 24,6 jaar
  • Is dit een goede schatting voor heel Frankrijk?
1 Afbeelding door Sean MacEntee
Steekproeven in Python

Hoe nauwkeurig was de enquête?

Jaar Gemiddelde leeftijd Fransen
1975 31,6
1985 33,6
1995 36,2
2005 38,9
2015 41,2
  • 24,6 jaar is een slechte schatting
  • Bezoekers van Disneyland zijn niet representatief voor de hele populatie
Steekproeven in Python

Gemakssteekproef: koffiebeoordelingen

coffee_ratings["total_cup_points"].mean()
82.15120328849028
coffee_ratings_first10 = coffee_ratings.head(10)
coffee_ratings_first10["total_cup_points"].mean()
89.1
Steekproeven in Python

Selectiebias visualiseren

import matplotlib.pyplot as plt
import numpy as np
coffee_ratings["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()

 

coffee_ratings_first10["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()
Steekproeven in Python

Verdeling van een populatie vs. een gemakssteekproef

Populatie: Een histogram van koppunten uit de populatie.

Gemakssteekproef: Een histogram van koppunten uit de steekproef.

Steekproeven in Python

Selectiebias visualiseren bij een aselecte steekproef

coffee_sample = coffee_ratings.sample(n=10)
coffee_sample["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()
Steekproeven in Python

Verdeling van een populatie vs. een eenvoudige aselecte steekproef

Populatie: Een histogram van koppunten uit de populatie.

Aselecte steekproef: Een histogram van koppunten uit een aselecte steekproef.

Steekproeven in Python

Laten we oefenen!

Steekproeven in Python

Preparing Video For Download...