Yeniden örnekleme (bootstrapping) giriş

Python'da Örnekleme

James Chapman

Curriculum Manager, DataCamp

Yerine koyarak ya da koymadan

Yerine koymadan örnekleme:

Bir kumarhane masasındaki iskambil kâğıtları.

Yerine koyarak örnekleme ("yeniden örnekleme"):

Dönen dört zar.

Python'da Örnekleme

Yerine koymadan basit rastgele örnekleme

Evren:

Sıra ve sütunlar halinde dizilmiş kahve çekirdekleri.

Örneklem:

Çoğu grileştirilmiş, sıra ve sütunlar halinde dizilmiş kahve çekirdekleri.

Python'da Örnekleme

Yerine koyarak basit rastgele örnekleme

Evren:

Sıra ve sütunlar halinde dizilmiş kahve çekirdekleri.

Yeniden örnek:

Bazıları yinelenen, rastgele seçilmiş kahve çekirdekleri.

Python'da Örnekleme

Neden yerine koyarak örneklenir?

  • coffee_ratings: tüm kahvelerden oluşan daha büyük bir evrenden bir örneklem
  • Örneklemdeki her kahve, birçok varsayımsal evren kahvesini temsil eder
  • Yerine koyarak örnekleme bir yaklaşımdır
Python'da Örnekleme

Kahve verisi hazırlığı

coffee_focus = coffee_ratings[["variety", "country_of_origin", "flavor"]]
coffee_focus = coffee_focus.reset_index()
      index  variety country_of_origin  flavor
0         0     None          Ethiopia    8.83
1         1    Other          Ethiopia    8.67
2         2  Bourbon         Guatemala    8.50
3         3     None          Ethiopia    8.58
4         4    Other          Ethiopia    8.50
...     ...      ...               ...     ...
1333   1333     None           Ecuador    7.58
1334   1334     None           Ecuador    7.67
1335   1335     None     United States    7.33
1336   1336     None             India    6.83
1337   1337     None           Vietnam    6.67

[1338 rows x 4 columns]
Python'da Örnekleme

sample() ile yeniden örnekleme

coffee_resamp = coffee_focus.sample(frac=1, replace=True)
      index  variety country_of_origin  flavor
1140   1140  Bourbon         Guatemala    7.25
57       57  Bourbon         Guatemala    8.00
1152   1152  Bourbon            Mexico    7.08
621     621  Caturra          Thailand    7.50
44       44     SL28             Kenya    8.08
...     ...      ...               ...     ...
996     996   Typica            Mexico    7.33
1090   1090  Bourbon         Guatemala    7.33
918     918    Other         Guatemala    7.42
249     249  Caturra          Colombia    7.67
467     467  Caturra          Colombia    7.50

[1338 rows x 4 columns]
Python'da Örnekleme

Tekrarlanan kahveler

coffee_resamp["index"].value_counts()
658     5
167     4
363     4
357     4
1047    4
       ..
771     1
770     1
766     1
764     1
0       1
Name: index, Length: 868, dtype: int64
Python'da Örnekleme

Eksik kahveler

num_unique_coffees = len(coffee_resamp.drop_duplicates(subset="index"))
868
len(coffee_ratings) - num_unique_coffees
470
Python'da Örnekleme

Bootstrapping

Evrenden örnekleme yapmanın tersi

Örnekleme: evrenden daha küçük bir örnekleme gitmek

Bootstrapping: örneklemden kuramsal bir evren oluşturmak

Bootstrapping kullanım amacı:

  • Tek bir örneklemle örnekleme değişkenliğini anlamak

Bir kovboy çizmesi.

Python'da Örnekleme

Bootstrapping süreci

  1. Özgün örneklemle aynı boyutta bir yeniden örnek oluşturun
  2. Bu bootstrap örneği için ilgilenilen istatistiği hesaplayın
  3. 1 ve 2. adımları çok kez tekrarlayın

Ortaya çıkan istatistikler bootstrap istatistikleridir ve bir bootstrap dağılımı oluşturur

Python'da Örnekleme

Kahve ortalama lezzeti için bootstrapping

import numpy as np

mean_flavors_1000 = []
for i in range(1000):
mean_flavors_1000.append(
np.mean(coffee_sample.sample(frac=1, replace=True)['flavor'])
)
Python'da Örnekleme

Bootstrap dağılımı histogramı

import matplotlib.pyplot as plt
plt.hist(mean_flavors_1000)
plt.show()

Ortalama lezzetin bootstrap dağılımı

Python'da Örnekleme

Hadi pratik yapalım!

Python'da Örnekleme

Preparing Video For Download...