Pengantar bootstrap

Sampling di R

Richie Cotton

Data Evangelist at DataCamp

Dengan atau tanpa

Sampling tanpa pengembalian

Kartu remi di meja kasino.

Sampling dengan pengembalian ("resampling")

Empat dadu yang sedang bergulir.

Sampling di R

Sampling acak sederhana tanpa pengembalian

Populasi

Biji kopi tersusun dalam baris dan kolom.

Sampel

Biji kopi tersusun dalam baris dan kolom, sebagian besar diarsir abu-abu.

Sampling di R

Sampling acak sederhana dengan pengembalian

Populasi

Biji kopi tersusun dalam baris dan kolom.

Sampel

Sampel acak biji kopi, beberapa duplikat.

Sampling di R

Mengapa sampling dengan pengembalian?

  • Anggap data coffee_ratings sebagai sampel dari populasi kopi yang lebih besar.
  • Anggap tiap kopi dalam sampel mewakili banyak kopi lain yang tidak ada di sampel, tetapi ada di populasi.
  • Pengambilan sampel dengan pengembalian adalah proxy untuk memasukkan anggota berbeda dari kelompok ini ke dalam sampel.
Sampling di R

Menyiapkan data kopi

coffee_focus <- coffee_ratings %>%
  select(variety, country_of_origin, flavor) %>%
  rowid_to_column()
glimpse(coffee_focus)
Rows: 1,338
Columns: 4
$ rowid             <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, ...
$ variety           <chr> NA, "Other", "Bourbon", NA, "Other", NA, "Other", N...
$ country_of_origin <chr> "Ethiopia", "Ethiopia", "Guatemala", "Ethiopia", "E...
$ flavor            <dbl> 8.83, 8.67, 8.50, 8.58, 8.50, 8.42, 8.50, 8.33, 8.6...
Sampling di R

Resampling dengan slice_sample()

coffee_resamp <- coffee_focus %>%
  slice_sample(prop = 1, replace = TRUE)
# A tibble: 1,338 x 4
   rowid variety country_of_origin flavor
   <int> <chr>   <chr>              <dbl>
 1  1253 Bourbon Guatemala           6.92
 2   186 Caturra Colombia            7.58
 3  1185 Bourbon Guatemala           7.42
 4  1273 NA      Philippines         6.5 
 5  1042 Caturra Honduras            7.33
 6   195 Caturra Guatemala           7.75
 7  1219 Typica  Mexico              7   
 8   952 Caturra Honduras            7.5 
 9    41 Caturra Thailand            8.33
10   460 Caturra Honduras            7.67
# ... with 1,328 more rows
Sampling di R

Kopi berulang

coffee_resamp %>% 
  count(rowid, sort = TRUE)
# A tibble: 844 x 2
   rowid     n
   <int> <int>
 1   704     5
 2   913     5
 3  1070     5
 4    16     4
 5   180     4
 6   230     4
 7   234     4
 8   342     4
 9   354     4
10   423     4
# ... with 834 more rows
Sampling di R

Kopi yang tidak terambil

coffee_resamp %>% 
  summarize(
    coffees_included = n_distinct(rowid),
    coffees_not_included = n() - coffees_included
  )
# A tibble: 1 x 2
  coffees_included coffees_not_included
             <int>                <int>
1              844                  494
Sampling di R

Bootstrapping

Kebalikan dari sampling dari populasi.

Sampling: dari populasi ke sampel yang lebih kecil.

Bootstrapping: membangun populasi teoretis dari sampel Anda.

Kegunaan bootstrapping

  • Memahami variasi sampling dari satu sampel.

Sebuah sepatu bot koboi.

Sampling di R

Proses bootstrapping

  1. Buat resample dengan ukuran sama seperti sampel asli.
  2. Hitung statistik yang diminati untuk sampel bootstrap ini.
  3. Ulangi langkah 1 dan 2 berkali-kali.

Statistik yang dihasilkan disebut statistik bootstrap dan saat dilihat variasinya membentuk distribusi bootstrap.

Sampling di R

Bootstrap mean rasa kopi

# Langkah 3. Ulangi berkali-kali
mean_flavors_1000 <- replicate(
  n = 1000,
  expr = {
    coffee_focus %>%
      # Langkah 1. Resample
      slice_sample(prop = 1, replace = TRUE) %>%
      # Langkah 2. Hitung statistik
      summarize(mean_flavor = mean(flavor, na.rm = TRUE)) %>% 
      pull(mean_flavor)
  })
Sampling di R

Histogram distribusi bootstrap

bootstrap_distn <- tibble(
  resample_mean = mean_flavors_1000
)
ggplot(bootstrap_distn, aes(resample_mean)) +
  geom_histogram(binwidth = 0.0025)

Histogram distribusi bootstrap dari mean sampel.

Sampling di R

Ayo berlatih!

Sampling di R

Preparing Video For Download...