Steekproef- vs. bootstrapverdelingen vergelijken

Steekproeven in R

Richie Cotton

Data Evangelist at DataCamp

Subset gericht op koffie

set.seed(19790801)
coffee_sample <- coffee_ratings %>%
  select(variety, country_of_origin, flavor) %>%
  rowid_to_column() %>% 
  slice_sample(n = 500)
glimpse(coffee_sample)
Rows: 500
Columns: 4
$ rowid             <int> 10, 278, 458, 622, 131, 385, 1292, 47, 904, 1020, 5...
$ variety           <chr> "Other", "Bourbon", NA, "Caturra", "Caturra", "Yell...
$ country_of_origin <chr> "Ethiopia", "Guatemala", "Colombia", "Thailand", "C...
$ flavor            <dbl> 8.58, 7.75, 7.75, 7.50, 8.00, 7.83, 7.17, 8.08, 7.3...
Steekproeven in R

Bootstrap van gemiddelde koffiesmaken

mean_flavors_1000 <- replicate(
  n = 1000,
  expr = coffee_sample %>%
    slice_sample(prop = 1, replace = TRUE) %>%
    summarize(mean_flavor = mean(flavor, na.rm = TRUE)) %>%
    pull(mean_flavor)
)
bootstrap_distn <- tibble(
  resample_mean = mean_flavors_1000
)
Steekproeven in R

Bootstrapverdeling van het gemiddelde smaakcijfer

 ggplot(bootstrap_distn, aes(resample_mean)) +
  geom_histogram(binwidth = 0.0025)

Een histogram van de bootstrapverdeling.

Steekproeven in R

Gemiddelden: steekproef, bootstrapverdeling, populatie

Steekproefgemiddelde

coffee_sample %>% 
  summarize(mean_flavor = mean(flavor)) %>% 
  pull(mean_flavor)
7.5163

Geschat populatiegemiddelde

bootstrap_distn %>% 
  summarize(mean_mean_flavor = mean(resample_mean)) %>% 
  pull(mean_mean_flavor)
7.5167

Werkelijk populatiegemiddelde

coffee_ratings %>% 
  summarize(mean_flavor = mean(flavor)) %>% 
  pull(mean_flavor)
7.5260
Steekproeven in R

De gemiddelden interpreteren

  • Het gemiddelde van de bootstrapverdeling is meestal bijna gelijk aan het steekproefgemiddelde.
  • Het is mogelijk geen goede schatting van het populatiegemiddelde.
  • Bootstrapping corrigeert geen bias door verschillen tussen je steekproef en de populatie.
Steekproeven in R

Steekproef-sd vs. sd van bootstrapverdeling

Steekproefstandaarddeviatie

coffee_focus %>% 
  summarize(sd_flavor = sd(flavor)) %>% 
  pull(sd_flavor)
0.3525

Geschatte standaarddeviatie van de populatie?

bootstrap_distn %>% 
  summarize(sd_mean_flavor = sd(resample_mean)) %>% 
  pull(sd_mean_flavor)
0.01572
Steekproeven in R

Standaarddeviaties: steekproef, bootstrap, populatie

Steekproefstandaarddeviatie

coffee_focus %>% 
  summarize(sd_flavor = sd(flavor)) %>% 
  pull(sd_flavor)
0.3525

Geschatte standaarddeviatie van de populatie

standard_error <- bootstrap_distn %>%
  summarize(sd_mean_flavor = sd(resample_mean)) %>% 
  pull(sd_mean_flavor)
standard_error * sqrt(500)
0.3515

Werkelijke standaarddeviatie

coffee_ratings %>%
  summarize(sd_flavor = sd(flavor)) %>%
  pull(sd_flavor)
0.3414

De standaardfout is de standaarddeviatie van de gewenste statistiek.

Standaardfout maal de wortel van de steekproefomvang schat de populatiestandaarddeviatie.

Steekproeven in R

De standaardfouten interpreteren

  • De geschatte standaardfout is de standaarddeviatie van de bootstrapverdeling voor een steekproefstatistiek.
  • De standaardfout van de bootstrapverdeling maal de wortel van de steekproefomvang schat de standaarddeviatie in de populatie.
Steekproeven in R

Laten we oefenen!

Steekproeven in R

Preparing Video For Download...