Pengambilan sampel dan estimasi titik

Sampling di R

Richie Cotton

Data Evangelist at DataCamp

Mengestimasi populasi Prancis

Peta Prancis.

Sensus menanyakan setiap rumah tangga berapa orang yang tinggal di sana.

Ada banyak orang di Prancis

Peta Prancis dengan ikon orang.

Sensus sangat mahal!

Mengambil sampel rumah tangga

Peta Prancis dengan ikon orang, sebagian disorot.

Lebih murah menanyakan sejumlah kecil rumah tangga dan menggunakan statistik untuk mengestimasi seluruh populasi.

Bekerja dengan subset dari populasi disebut pengambilan sampel.

Populasi vs. sampel

Populasi adalah seluruh dataset.

Tidak harus merujuk pada orang.
Biasanya kita tidak tahu seluruh populasi.

Sampel adalah subset data yang Anda hitung.

Dataset penilaian kopi

total_cup_points	variety	country_of_origin	aroma	flavor	aftertaste	body	balance
90.58	NA	Ethiopia	8.67	8.83	8.67	8.50	8.42
89.92	Other	Ethiopia	8.75	8.67	8.50	8.42	8.42
...	...	...	...	...	...	...	...
73.75	NA	Vietnam	6.75	6.67	6.5	6.92	6.83

Setiap baris mewakili 1 kopi.
1138 baris.
Kita anggap ini sebagai populasi.

Poin vs. rasa: populasi

pts_vs_flavor_pop <- coffee_ratings %>% 
  select(total_cup_points, flavor)

dim(pts_vs_flavor_pop)

1338    2

     total_cup_points flavor
1               90.58   8.83
2               89.92   8.67
3               89.75   8.50
4               89.00   8.58
...              ...     ...
1335            78.08   7.67
1336            77.17   7.33
1337            75.08   6.83
1338            73.75   6.67

Poin vs. rasa: sampel 10 baris

pts_vs_flavor_samp <- coffee_ratings %>% 
  select(total_cup_points, flavor) %>%
  slice_sample(n = 10)

dim(pts_vs_flavor_samp)

10  2

   total_cup_points flavor
1             82.25   7.58
2             83.50   7.67
3             80.50   7.17
4             79.33   7.17
5             83.83   7.58
6             84.17   7.75
7             83.67   8.17
8             81.92   7.50
9             82.67   7.58
10            83.42   7.67

Pengambilan sampel di Base R

Gunakan slice_sample() untuk data frame, dan sample() untuk vektor.

cup_points_samp <- sample(coffee_ratings$total_cup_points, size = 10)

88.25 83.83 83.17 82.67 84.67 83.42 73.67 86.00 81.58 80.92

Parameter populasi & estimasi titik

Parameter populasi adalah perhitungan pada dataset populasi.

mean(pts_vs_flavor_pop$total_cup_points)

82.15

Estimasi titik atau statistik sampel adalah perhitungan pada dataset sampel.

mean(cup_points_samp)

82.82

Estimasi titik dengan dplyr

pts_vs_flavor_pop %>% 
  summarize(mean_flavor = mean(flavor))

  mean_flavor
1       7.526

pts_vs_flavor_samp %>% 
  summarize(mean_flavor = mean(flavor))

  mean_flavor
1       7.716

Ayo berlatih!

Sampling di R