Introductie tot bootstrapping

Steekproeven in R

Richie Cotton

Data Evangelist at DataCamp

Met of zonder

Steekproeven zonder terugleggen

Speelkaarten op een casinotafel.

Steekproeven met terugleggen ("resampling")

Vier rollende dobbelstenen.

Eenvoudige aselecte steekproef zonder terugleggen

Populatie

Koffiebonen in rijen en kolommen.

Steekproef

Koffiebonen in rijen en kolommen, waarvan de meeste grijs zijn gemaakt.

Eenvoudige aselecte steekproef met terugleggen

Populatie

Koffiebonen in rijen en kolommen.

Steekproef

Een aselecte steekproef van koffiebonen, waarvan sommige duplicaten zijn.

Waarom steekproeven met terugleggen?

Zie de coffee_ratings-data als een steekproef uit de populatie van alle koffies.
Beschouw elke koffie in onze steekproef als representant van veel andere koffies die niet in de steekproef zitten, maar wel in de populatie.
Steekproeven met terugleggen bootsen na dat we verschillende leden uit deze groepen opnemen.

Koffiedata voorbereiden

coffee_focus <- coffee_ratings %>%
  select(variety, country_of_origin, flavor) %>%
  rowid_to_column()

glimpse(coffee_focus)

Rows: 1,338
Columns: 4
$ rowid             <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, ...
$ variety           <chr> NA, "Other", "Bourbon", NA, "Other", NA, "Other", N...
$ country_of_origin <chr> "Ethiopia", "Ethiopia", "Guatemala", "Ethiopia", "E...
$ flavor            <dbl> 8.83, 8.67, 8.50, 8.58, 8.50, 8.42, 8.50, 8.33, 8.6...

Hersteekproeven met slice_sample()

coffee_resamp <- coffee_focus %>%
  slice_sample(prop = 1, replace = TRUE)

# A tibble: 1,338 x 4
   rowid variety country_of_origin flavor
   <int> <chr>   <chr>              <dbl>
 1  1253 Bourbon Guatemala           6.92
 2   186 Caturra Colombia            7.58
 3  1185 Bourbon Guatemala           7.42
 4  1273 NA      Philippines         6.5 
 5  1042 Caturra Honduras            7.33
 6   195 Caturra Guatemala           7.75
 7  1219 Typica  Mexico              7   
 8   952 Caturra Honduras            7.5 
 9    41 Caturra Thailand            8.33
10   460 Caturra Honduras            7.67
# ... with 1,328 more rows

Herhaalde koffies

coffee_resamp %>% 
  count(rowid, sort = TRUE)

# A tibble: 844 x 2
   rowid     n
   <int> <int>
 1   704     5
 2   913     5
 3  1070     5
 4    16     4
 5   180     4
 6   230     4
 7   234     4
 8   342     4
 9   354     4
10   423     4
# ... with 834 more rows

Ontbrekende koffies

coffee_resamp %>% 
  summarize(
    coffees_included = n_distinct(rowid),
    coffees_not_included = n() - coffees_included
  )

# A tibble: 1 x 2
  coffees_included coffees_not_included
             <int>                <int>
1              844                  494

Bootstrapping

Het omgekeerde van steekproeven uit een populatie.

Steekproeven: van populatie naar kleinere steekproef.

Bootstrapping: bouw een theoretische populatie op uit je steekproef.

Toepassing van bootstrapping

Begrijp steekproefvariatie met één steekproef.

Een cowboylaars.

Bootstrapping-stappen

Maak een hersteekproef van dezelfde grootte als de originele steekproef.
Bereken de gewenste statistiek voor deze bootstrap-steekproef.
Herhaal stap 1 en 2 vaak.

De resulterende statistieken heten bootstrap-statistieken en hun spreiding vormt een bootstrap-verdeling.

Bootstrapping: gemiddelde koffiesmaak

# Stap 3. Vaak herhalen
mean_flavors_1000 <- replicate(
  n = 1000,
  expr = {

    coffee_focus %>%
      # Stap 1. Hersteekproef
      slice_sample(prop = 1, replace = TRUE) %>%

      # Stap 2. Statistiek berekenen
      summarize(mean_flavor = mean(flavor, na.rm = TRUE)) %>% 
      pull(mean_flavor)

})

Histogram van bootstrap-verdeling

bootstrap_distn <- tibble(
  resample_mean = mean_flavors_1000
)

ggplot(bootstrap_distn, aes(resample_mean)) +
  geom_histogram(binwidth = 0.0025)

Een histogram van de bootstrap-verdeling van het steekproefgemiddelde.

Laten we oefenen!

Steekproeven in R