Steekproef op basis van gemak

Steekproeven in R

Richie Cotton

Data Evangelist at DataCamp

De verkiezingsvoorspelling van The Literary Digest

Een voorpagina van The Literary Digest uit 1936 met een kop over verkiezingsvoorspellingen. Voor Landon werd 1,3 miljoen stemmen verwacht en voor Roosevelt net geen 1 miljoen.

  • Voorspelling: Landon 57%; Roosevelt 43%
  • Werkelijke uitslag: Landon 38%; Roosevelt 62%
  • Steekproef niet representatief voor de populatie: leidt tot steekproefbias.
  • Data verzamelen via de makkelijkste weg heet gemaksteekproef.
Steekproeven in R

De gemiddelde leeftijd van Fransen bepalen

Een foto van Disneyland Parijs.

  • Enquêteer 10 mensen in Disneyland Parijs.
  • Hun gemiddelde leeftijd is 24,6 jaar.
  • Is dit een goede schatting voor heel Frankrijk?
1 Afbeelding door Sean MacEntee
Steekproeven in R

Hoe nauwkeurig was de enquête?

Jaar Gemiddelde leeftijd in Frankrijk
1975 31,6
1985 33,6
1995 36,2
2005 38,9
2015 41,2
  • 24,6 jaar is een slechte schatting.
  • Bezoekers van Disneyland zijn niet representatief voor de hele populatie.
Steekproeven in R

Gemakssteekproef: koffiescores

coffee_ratings %>% 
  summarize(mean_cup_points = mean(total_cup_points))
  mean_cup_points
1           82.09
coffee_ratings_first10 <- coffee_ratings %>% 
  slice_head(n = 10)
coffee_ratings_first10 %>% 
  summarize(mean_cup_points = mean(total_cup_points))
  mean_cup_points
1            89.1
Steekproeven in R

Selectiebias visualiseren

coffee_ratings %>%
  ggplot(aes(x = total_cup_points)) +
  geom_histogram(binwidth = 2)

Een histogram van bekerpunten uit de populatie.

coffee_ratings_first10 %>%
  ggplot(aes(x = total_cup_points)) +
  geom_histogram(binwidth = 2) +
  xlim(59, 91)

Een histogram van bekerpunten uit de steekproef.

Steekproeven in R

Selectiebias visualiseren 2

coffee_ratings %>%
  ggplot(aes(x = total_cup_points)) +
  geom_histogram(binwidth = 2) 

Een histogram van bekerpunten uit de populatie.

coffee_ratings %>%
  slice_sample(n = 10) %>% 
  ggplot(aes(x = total_cup_points)) +
  geom_histogram(binwidth = 2) +
  xlim(59, 91)

Een histogram van bekerpunten uit een aselecte steekproef.

Steekproeven in R

Laten we oefenen!

Steekproeven in R

Preparing Video For Download...