Örnekleme ve bootstrap dağılımlarını karşılaştırma

Python'da Örnekleme

James Chapman

Curriculum Manager, DataCamp

Kahve odaklı alt küme

coffee_sample = coffee_ratings[["variety", "country_of_origin", "flavor"]]\
    .reset_index().sample(n=500)
     index         variety       country_of_origin  flavor
132    132           Other              Costa Rica    7.58
51      51            None  United States (Hawaii)    8.17
42      42  Yellow Bourbon                  Brazil    7.92
569    569         Bourbon               Guatemala    7.67
..     ...             ...                     ...     ...
643    643          Catuai              Costa Rica    7.42
356    356         Caturra                Colombia    7.58
494    494            None               Indonesia    7.58
169    169            None                  Brazil    7.81

[500 rows x 4 columns]
Python'da Örnekleme

Ortalama kahve tatlarının bootstrap'i

import numpy as np
mean_flavors_5000 = []
for i in range(5000):
    mean_flavors_5000.append(
        np.mean(coffee_sample.sample(frac=1, replace=True)['flavor'])
    )
bootstrap_distn = mean_flavors_5000
Python'da Örnekleme

Ortalama tat bootstrap dağılımı

import matplotlib.pyplot as plt
plt.hist(bootstrap_distn, bins=15)
plt.show()

Bootstrap dağılımının bir histogramı.

Python'da Örnekleme

Örnek, bootstrap dağılımı, anakütle ortalamaları

Örnek ortalaması:

coffee_sample['flavor'].mean()
7.5132200000000005

Tahmini anakütle ortalaması:

np.mean(bootstrap_distn)
7.513357731999999

Gerçek anakütle ortalaması:

coffee_ratings['flavor'].mean()
7.526046337817639
Python'da Örnekleme

Ortalamaları yorumlama

Bootstrap dağılımı ortalaması:

  • Genellikle örnek ortalamasına yakındır
  • Anakütle ortalamasını iyi tahmin etmeyebilir

  Bootstrap, örneklemeden kaynaklı yanlılığı gideremez

Python'da Örnekleme

Örnek ss vs. bootstrap dağılımı ss

Örnek standart sapması:

coffee_sample['flavor'].std()
0.3540883911928703

Tahmini anakütle standart sapması?

np.std(bootstrap_distn, ddof=1)
0.015768474367958217
Python'da Örnekleme

Örnek, bootstrap dağılımı, anakütle ss

Örnek standart sapması:

coffee_sample['flavor'].std()
0.3540883911928703

Tahmini anakütle standart sapması:

standard_error = np.std(bootstrap_distn, ddof=1)

Standart hata, ilgi duyulan istatistiğin standart sapmasıdır

Gerçek standart sapma:

coffee_ratings['flavor'].std(ddof=0)
0.34125481224622645
standard_error * np.sqrt(500)
0.3525938058821761

Standart hata × örneklem büyüklüğünün karekökü, anakütle standart sapmasını tahmin eder

Python'da Örnekleme

Standart hataları yorumlama

  • Tahmini standart hata → örnek istatistiği için bootstrap dağılımının standart sapması
  • $\text{Anakütle ss} \approx \text{Std. hata} \times \sqrt{\text{Örneklem büyüklüğü}}$
Python'da Örnekleme

Hadi pratik yapalım!

Python'da Örnekleme

Preparing Video For Download...