Introductie tot bootstrapping

Steekproeven in R

Richie Cotton

Data Evangelist at DataCamp

Met of zonder

Steekproeven zonder terugleggen

Speelkaarten op een casinotafel.

Steekproeven met terugleggen ("resampling")

Vier rollende dobbelstenen.

Steekproeven in R

Eenvoudige aselecte steekproef zonder terugleggen

Populatie

Koffiebonen in rijen en kolommen.

Steekproef

Koffiebonen in rijen en kolommen, waarvan de meeste grijs zijn gemaakt.

Steekproeven in R

Eenvoudige aselecte steekproef met terugleggen

Populatie

Koffiebonen in rijen en kolommen.

Steekproef

Een aselecte steekproef van koffiebonen, waarvan sommige duplicaten zijn.

Steekproeven in R

Waarom steekproeven met terugleggen?

  • Zie de coffee_ratings-data als een steekproef uit de populatie van alle koffies.
  • Beschouw elke koffie in onze steekproef als representant van veel andere koffies die niet in de steekproef zitten, maar wel in de populatie.
  • Steekproeven met terugleggen bootsen na dat we verschillende leden uit deze groepen opnemen.
Steekproeven in R

Koffiedata voorbereiden

coffee_focus <- coffee_ratings %>%
  select(variety, country_of_origin, flavor) %>%
  rowid_to_column()
glimpse(coffee_focus)
Rows: 1,338
Columns: 4
$ rowid             <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, ...
$ variety           <chr> NA, "Other", "Bourbon", NA, "Other", NA, "Other", N...
$ country_of_origin <chr> "Ethiopia", "Ethiopia", "Guatemala", "Ethiopia", "E...
$ flavor            <dbl> 8.83, 8.67, 8.50, 8.58, 8.50, 8.42, 8.50, 8.33, 8.6...
Steekproeven in R

Hersteekproeven met slice_sample()

coffee_resamp <- coffee_focus %>%
  slice_sample(prop = 1, replace = TRUE)
# A tibble: 1,338 x 4
   rowid variety country_of_origin flavor
   <int> <chr>   <chr>              <dbl>
 1  1253 Bourbon Guatemala           6.92
 2   186 Caturra Colombia            7.58
 3  1185 Bourbon Guatemala           7.42
 4  1273 NA      Philippines         6.5 
 5  1042 Caturra Honduras            7.33
 6   195 Caturra Guatemala           7.75
 7  1219 Typica  Mexico              7   
 8   952 Caturra Honduras            7.5 
 9    41 Caturra Thailand            8.33
10   460 Caturra Honduras            7.67
# ... with 1,328 more rows
Steekproeven in R

Herhaalde koffies

coffee_resamp %>% 
  count(rowid, sort = TRUE)
# A tibble: 844 x 2
   rowid     n
   <int> <int>
 1   704     5
 2   913     5
 3  1070     5
 4    16     4
 5   180     4
 6   230     4
 7   234     4
 8   342     4
 9   354     4
10   423     4
# ... with 834 more rows
Steekproeven in R

Ontbrekende koffies

coffee_resamp %>% 
  summarize(
    coffees_included = n_distinct(rowid),
    coffees_not_included = n() - coffees_included
  )
# A tibble: 1 x 2
  coffees_included coffees_not_included
             <int>                <int>
1              844                  494
Steekproeven in R

Bootstrapping

Het omgekeerde van steekproeven uit een populatie.

Steekproeven: van populatie naar kleinere steekproef.

Bootstrapping: bouw een theoretische populatie op uit je steekproef.

Toepassing van bootstrapping

  • Begrijp steekproefvariatie met één steekproef.

Een cowboylaars.

Steekproeven in R

Bootstrapping-stappen

  1. Maak een hersteekproef van dezelfde grootte als de originele steekproef.
  2. Bereken de gewenste statistiek voor deze bootstrap-steekproef.
  3. Herhaal stap 1 en 2 vaak.

De resulterende statistieken heten bootstrap-statistieken en hun spreiding vormt een bootstrap-verdeling.

Steekproeven in R

Bootstrapping: gemiddelde koffiesmaak

# Stap 3. Vaak herhalen
mean_flavors_1000 <- replicate(
  n = 1000,
  expr = {
    coffee_focus %>%
      # Stap 1. Hersteekproef
      slice_sample(prop = 1, replace = TRUE) %>%
      # Stap 2. Statistiek berekenen
      summarize(mean_flavor = mean(flavor, na.rm = TRUE)) %>% 
      pull(mean_flavor)
  })
Steekproeven in R

Histogram van bootstrap-verdeling

bootstrap_distn <- tibble(
  resample_mean = mean_flavors_1000
)
ggplot(bootstrap_distn, aes(resample_mean)) +
  geom_histogram(binwidth = 0.0025)

Een histogram van de bootstrap-verdeling van het steekproefgemiddelde.

Steekproeven in R

Laten we oefenen!

Steekproeven in R

Preparing Video For Download...