Steekproeven en puntschattingen

Steekproeven in R

Richie Cotton

Data Evangelist at DataCamp

De bevolking van Frankrijk schatten

Een kaart van Frankrijk.

Een volkstelling vraagt elk huishouden hoeveel mensen er wonen.

Steekproeven in R

Er wonen veel mensen in Frankrijk

Een kaart van Frankrijk met pictogrammen van mensen.

Volkstellingen zijn erg duur!

Steekproeven in R

Huishoudens steekproeven

Een kaart van Frankrijk met pictogrammen van mensen, waarvan sommige gemarkeerd zijn.

Het is goedkoper om een klein aantal huishoudens te bevragen en met statistiek de hele populatie te schatten.

Werken met een subset van de populatie heet steekproeven.

Steekproeven in R

Populatie vs. steekproef

De populatie is de volledige dataset.

  • Het hoeft niet over mensen te gaan.
  • Meestal ken je de hele populatie niet.

De steekproef is de subset waarop je rekent.

Steekproeven in R

Koffiebeoordelingsdataset

total_cup_points variety country_of_origin aroma flavor aftertaste body balance
90.58 NA Ethiopia 8.67 8.83 8.67 8.50 8.42
89.92 Other Ethiopia 8.75 8.67 8.50 8.42 8.42
... ... ... ... ... ... ... ...
73.75 NA Vietnam 6.75 6.67 6.5 6.92 6.83
  • Elke rij is 1 koffie.
  • 1138 rijen.
  • We behandelen dit als de populatie.
Steekproeven in R

Punten vs. smaak: populatie

pts_vs_flavor_pop <- coffee_ratings %>% 
  select(total_cup_points, flavor)
dim(pts_vs_flavor_pop)
1338    2
     total_cup_points flavor
1               90.58   8.83
2               89.92   8.67
3               89.75   8.50
4               89.00   8.58
...              ...     ...
1335            78.08   7.67
1336            77.17   7.33
1337            75.08   6.83
1338            73.75   6.67
Steekproeven in R

Punten vs. smaak: steekproef van 10 rijen

pts_vs_flavor_samp <- coffee_ratings %>% 
  select(total_cup_points, flavor) %>%
  slice_sample(n = 10)
dim(pts_vs_flavor_samp)
10  2
   total_cup_points flavor
1             82.25   7.58
2             83.50   7.67
3             80.50   7.17
4             79.33   7.17
5             83.83   7.58
6             84.17   7.75
7             83.67   8.17
8             81.92   7.50
9             82.67   7.58
10            83.42   7.67
Steekproeven in R

Steekproeven in base R

Gebruik slice_sample() voor dataframes en sample() voor vectoren.

cup_points_samp <- sample(coffee_ratings$total_cup_points, size = 10)
88.25 83.83 83.17 82.67 84.67 83.42 73.67 86.00 81.58 80.92
Steekproeven in R

Populatieparameters & puntschattingen

Een populatieparameter is een berekening op de populatiedataset.

mean(pts_vs_flavor_pop$total_cup_points)
82.15

Een puntschatting of steekproefstatistiek is een berekening op de steekproefdataset.

mean(cup_points_samp)
82.82
Steekproeven in R

Puntschattingen met dplyr

pts_vs_flavor_pop %>% 
  summarize(mean_flavor = mean(flavor)) 
  mean_flavor
1       7.526
pts_vs_flavor_samp %>% 
  summarize(mean_flavor = mean(flavor)) 
  mean_flavor
1       7.716
Steekproeven in R

Laten we oefenen!

Steekproeven in R

Preparing Video For Download...