Örnekleme ve nokta tahminleri

R'de Örnekleme

Richie Cotton

Data Evangelist at DataCamp

Fransa nüfusunu tahmin etme

Fransa haritası.

Bir nüfus sayımı her haneye orada kaç kişi yaşadığını sorar.

R'de Örnekleme

Fransa'da çok insan var

İnsan ikonlarıyla Fransa haritası.

Nüfus sayımları çok pahalıdır!

R'de Örnekleme

Haneleri örnekleme

Bazıları vurgulanmış insan ikonlarıyla Fransa haritası.

Tüm ana kütle hakkında tahmin yapmak için az sayıda haneye sormak ve istatistik kullanmak daha ucuzdur.

Tüm ana kütlenin bir alt kümesiyle çalışmaya örnekleme denir.

R'de Örnekleme

Ana kütle vs. örnek

Ana kütle tüm veri kümesidir.

  • İnsanlara atıf yapmak zorunda değildir.
  • Genellikle tüm ana kütleyi bilmezsiniz.

Örnek hesaplama yaptığınız alt kümedir.

R'de Örnekleme

Kahve puanlama veri kümesi

total_cup_points variety country_of_origin aroma flavor aftertaste body balance
90.58 NA Ethiopia 8.67 8.83 8.67 8.50 8.42
89.92 Other Ethiopia 8.75 8.67 8.50 8.42 8.42
... ... ... ... ... ... ... ...
73.75 NA Vietnam 6.75 6.67 6.5 6.92 6.83
  • Her satır 1 kahveyi temsil eder.
  • 1138 satır.
  • Bunu ana kütle olarak ele alacağız.
R'de Örnekleme

Puan vs. lezzet: ana kütle

pts_vs_flavor_pop <- coffee_ratings %>% 
  select(total_cup_points, flavor)
dim(pts_vs_flavor_pop)
1338    2
     total_cup_points flavor
1               90.58   8.83
2               89.92   8.67
3               89.75   8.50
4               89.00   8.58
...              ...     ...
1335            78.08   7.67
1336            77.17   7.33
1337            75.08   6.83
1338            73.75   6.67
R'de Örnekleme

Puan vs. lezzet: 10 satırlık örnek

pts_vs_flavor_samp <- coffee_ratings %>% 
  select(total_cup_points, flavor) %>%
  slice_sample(n = 10)
dim(pts_vs_flavor_samp)
10  2
   total_cup_points flavor
1             82.25   7.58
2             83.50   7.67
3             80.50   7.17
4             79.33   7.17
5             83.83   7.58
6             84.17   7.75
7             83.67   8.17
8             81.92   7.50
9             82.67   7.58
10            83.42   7.67
R'de Örnekleme

Base R ile örnekleme

Veri çerçeveleri için slice_sample(), vektörler için sample() kullanın.

cup_points_samp <- sample(coffee_ratings$total_cup_points, size = 10)
88.25 83.83 83.17 82.67 84.67 83.42 73.67 86.00 81.58 80.92
R'de Örnekleme

Ana kütle parametreleri ve nokta tahminleri

Ana kütle parametresi, ana kütle veri kümesi üzerinde yapılan bir hesaptır.

mean(pts_vs_flavor_pop$total_cup_points)
82.15

Nokta tahmini veya örnek istatistiği, örnek veri kümesi üzerinde yapılan bir hesaptır.

mean(cup_points_samp)
82.82
R'de Örnekleme

dplyr ile nokta tahminleri

pts_vs_flavor_pop %>% 
  summarize(mean_flavor = mean(flavor)) 
  mean_flavor
1       7.526
pts_vs_flavor_samp %>% 
  summarize(mean_flavor = mean(flavor)) 
  mean_flavor
1       7.716
R'de Örnekleme

Hadi pratik yapalım!

R'de Örnekleme

Preparing Video For Download...