Steekproef- vs. bootstrapverdelingen vergelijken

Steekproeven in R

Richie Cotton

Data Evangelist at DataCamp

Subset gericht op koffie

set.seed(19790801)
coffee_sample <- coffee_ratings %>%
  select(variety, country_of_origin, flavor) %>%
  rowid_to_column() %>% 
  slice_sample(n = 500)
glimpse(coffee_sample)

Rows: 500
Columns: 4
$ rowid             <int> 10, 278, 458, 622, 131, 385, 1292, 47, 904, 1020, 5...
$ variety           <chr> "Other", "Bourbon", NA, "Caturra", "Caturra", "Yell...
$ country_of_origin <chr> "Ethiopia", "Guatemala", "Colombia", "Thailand", "C...
$ flavor            <dbl> 8.58, 7.75, 7.75, 7.50, 8.00, 7.83, 7.17, 8.08, 7.3...

Bootstrap van gemiddelde koffiesmaken

mean_flavors_1000 <- replicate(
  n = 1000,
  expr = coffee_sample %>%
    slice_sample(prop = 1, replace = TRUE) %>%
    summarize(mean_flavor = mean(flavor, na.rm = TRUE)) %>%
    pull(mean_flavor)
)
bootstrap_distn <- tibble(
  resample_mean = mean_flavors_1000
)

Bootstrapverdeling van het gemiddelde smaakcijfer

 ggplot(bootstrap_distn, aes(resample_mean)) +
  geom_histogram(binwidth = 0.0025)

Een histogram van de bootstrapverdeling.

Gemiddelden: steekproef, bootstrapverdeling, populatie

Steekproefgemiddelde

coffee_sample %>% 
  summarize(mean_flavor = mean(flavor)) %>% 
  pull(mean_flavor)

7.5163

Geschat populatiegemiddelde

bootstrap_distn %>% 
  summarize(mean_mean_flavor = mean(resample_mean)) %>% 
  pull(mean_mean_flavor)

7.5167

Werkelijk populatiegemiddelde

coffee_ratings %>% 
  summarize(mean_flavor = mean(flavor)) %>% 
  pull(mean_flavor)

7.5260

De gemiddelden interpreteren

Het gemiddelde van de bootstrapverdeling is meestal bijna gelijk aan het steekproefgemiddelde.
Het is mogelijk geen goede schatting van het populatiegemiddelde.
Bootstrapping corrigeert geen bias door verschillen tussen je steekproef en de populatie.

Steekproef-sd vs. sd van bootstrapverdeling

Steekproefstandaarddeviatie

coffee_focus %>% 
  summarize(sd_flavor = sd(flavor)) %>% 
  pull(sd_flavor)

0.3525

Geschatte standaarddeviatie van de populatie?

bootstrap_distn %>% 
  summarize(sd_mean_flavor = sd(resample_mean)) %>% 
  pull(sd_mean_flavor)

0.01572

Standaarddeviaties: steekproef, bootstrap, populatie

Steekproefstandaarddeviatie

coffee_focus %>% 
  summarize(sd_flavor = sd(flavor)) %>% 
  pull(sd_flavor)

0.3525

Geschatte standaarddeviatie van de populatie

standard_error <- bootstrap_distn %>%
  summarize(sd_mean_flavor = sd(resample_mean)) %>% 
  pull(sd_mean_flavor)

standard_error * sqrt(500)

0.3515

Werkelijke standaarddeviatie

coffee_ratings %>%
  summarize(sd_flavor = sd(flavor)) %>%
  pull(sd_flavor)

0.3414

De standaardfout is de standaarddeviatie van de gewenste statistiek.

Standaardfout maal de wortel van de steekproefomvang schat de populatiestandaarddeviatie.

De standaardfouten interpreteren

De geschatte standaardfout is de standaarddeviatie van de bootstrapverdeling voor een steekproefstatistiek.
De standaardfout van de bootstrapverdeling maal de wortel van de steekproefomvang schat de standaarddeviatie in de populatie.

Laten we oefenen!

Steekproeven in R