Steekproeven en puntschattingen

Steekproeven in R

Richie Cotton

Data Evangelist at DataCamp

De bevolking van Frankrijk schatten

Een kaart van Frankrijk.

Een volkstelling vraagt elk huishouden hoeveel mensen er wonen.

Er wonen veel mensen in Frankrijk

Een kaart van Frankrijk met pictogrammen van mensen.

Volkstellingen zijn erg duur!

Huishoudens steekproeven

Een kaart van Frankrijk met pictogrammen van mensen, waarvan sommige gemarkeerd zijn.

Het is goedkoper om een klein aantal huishoudens te bevragen en met statistiek de hele populatie te schatten.

Werken met een subset van de populatie heet steekproeven.

Populatie vs. steekproef

De populatie is de volledige dataset.

Het hoeft niet over mensen te gaan.
Meestal ken je de hele populatie niet.

De steekproef is de subset waarop je rekent.

Koffiebeoordelingsdataset

total_cup_points	variety	country_of_origin	aroma	flavor	aftertaste	body	balance
90.58	NA	Ethiopia	8.67	8.83	8.67	8.50	8.42
89.92	Other	Ethiopia	8.75	8.67	8.50	8.42	8.42
...	...	...	...	...	...	...	...
73.75	NA	Vietnam	6.75	6.67	6.5	6.92	6.83

Elke rij is 1 koffie.
1138 rijen.
We behandelen dit als de populatie.

Punten vs. smaak: populatie

pts_vs_flavor_pop <- coffee_ratings %>% 
  select(total_cup_points, flavor)

dim(pts_vs_flavor_pop)

1338    2

     total_cup_points flavor
1               90.58   8.83
2               89.92   8.67
3               89.75   8.50
4               89.00   8.58
...              ...     ...
1335            78.08   7.67
1336            77.17   7.33
1337            75.08   6.83
1338            73.75   6.67

Punten vs. smaak: steekproef van 10 rijen

pts_vs_flavor_samp <- coffee_ratings %>% 
  select(total_cup_points, flavor) %>%
  slice_sample(n = 10)

dim(pts_vs_flavor_samp)

10  2

   total_cup_points flavor
1             82.25   7.58
2             83.50   7.67
3             80.50   7.17
4             79.33   7.17
5             83.83   7.58
6             84.17   7.75
7             83.67   8.17
8             81.92   7.50
9             82.67   7.58
10            83.42   7.67

Steekproeven in base R

Gebruik slice_sample() voor dataframes en sample() voor vectoren.

cup_points_samp <- sample(coffee_ratings$total_cup_points, size = 10)

88.25 83.83 83.17 82.67 84.67 83.42 73.67 86.00 81.58 80.92

Populatieparameters & puntschattingen

Een populatieparameter is een berekening op de populatiedataset.

mean(pts_vs_flavor_pop$total_cup_points)

82.15

Een puntschatting of steekproefstatistiek is een berekening op de steekproefdataset.

mean(cup_points_samp)

82.82

Puntschattingen met dplyr

pts_vs_flavor_pop %>% 
  summarize(mean_flavor = mean(flavor))

  mean_flavor
1       7.526

pts_vs_flavor_samp %>% 
  summarize(mean_flavor = mean(flavor))

  mean_flavor
1       7.716

Laten we oefenen!

Steekproeven in R