Pengambilan sampel dan estimasi titik

Sampling di R

Richie Cotton

Data Evangelist at DataCamp

Mengestimasi populasi Prancis

Peta Prancis.

Sensus menanyakan setiap rumah tangga berapa orang yang tinggal di sana.

Sampling di R

Ada banyak orang di Prancis

Peta Prancis dengan ikon orang.

Sensus sangat mahal!

Sampling di R

Mengambil sampel rumah tangga

Peta Prancis dengan ikon orang, sebagian disorot.

Lebih murah menanyakan sejumlah kecil rumah tangga dan menggunakan statistik untuk mengestimasi seluruh populasi.

Bekerja dengan subset dari populasi disebut pengambilan sampel.

Sampling di R

Populasi vs. sampel

Populasi adalah seluruh dataset.

  • Tidak harus merujuk pada orang.
  • Biasanya kita tidak tahu seluruh populasi.

Sampel adalah subset data yang Anda hitung.

Sampling di R

Dataset penilaian kopi

total_cup_points variety country_of_origin aroma flavor aftertaste body balance
90.58 NA Ethiopia 8.67 8.83 8.67 8.50 8.42
89.92 Other Ethiopia 8.75 8.67 8.50 8.42 8.42
... ... ... ... ... ... ... ...
73.75 NA Vietnam 6.75 6.67 6.5 6.92 6.83
  • Setiap baris mewakili 1 kopi.
  • 1138 baris.
  • Kita anggap ini sebagai populasi.
Sampling di R

Poin vs. rasa: populasi

pts_vs_flavor_pop <- coffee_ratings %>% 
  select(total_cup_points, flavor)
dim(pts_vs_flavor_pop)
1338    2
     total_cup_points flavor
1               90.58   8.83
2               89.92   8.67
3               89.75   8.50
4               89.00   8.58
...              ...     ...
1335            78.08   7.67
1336            77.17   7.33
1337            75.08   6.83
1338            73.75   6.67
Sampling di R

Poin vs. rasa: sampel 10 baris

pts_vs_flavor_samp <- coffee_ratings %>% 
  select(total_cup_points, flavor) %>%
  slice_sample(n = 10)
dim(pts_vs_flavor_samp)
10  2
   total_cup_points flavor
1             82.25   7.58
2             83.50   7.67
3             80.50   7.17
4             79.33   7.17
5             83.83   7.58
6             84.17   7.75
7             83.67   8.17
8             81.92   7.50
9             82.67   7.58
10            83.42   7.67
Sampling di R

Pengambilan sampel di Base R

Gunakan slice_sample() untuk data frame, dan sample() untuk vektor.

cup_points_samp <- sample(coffee_ratings$total_cup_points, size = 10)
88.25 83.83 83.17 82.67 84.67 83.42 73.67 86.00 81.58 80.92
Sampling di R

Parameter populasi & estimasi titik

Parameter populasi adalah perhitungan pada dataset populasi.

mean(pts_vs_flavor_pop$total_cup_points)
82.15

Estimasi titik atau statistik sampel adalah perhitungan pada dataset sampel.

mean(cup_points_samp)
82.82
Sampling di R

Estimasi titik dengan dplyr

pts_vs_flavor_pop %>% 
  summarize(mean_flavor = mean(flavor)) 
  mean_flavor
1       7.526
pts_vs_flavor_samp %>% 
  summarize(mean_flavor = mean(flavor)) 
  mean_flavor
1       7.716
Sampling di R

Ayo berlatih!

Sampling di R

Preparing Video For Download...