Sampling klaster

Sampling di Python

James Chapman

Curriculum Manager, DataCamp

Sampling berstrata vs. sampling klaster

Sampling berstrata

  • Bagi populasi menjadi subkelompok
  • Gunakan simple random sampling pada setiap subkelompok

Sampling klaster

  • Gunakan simple random sampling untuk memilih beberapa subkelompok
  • Gunakan simple random sampling hanya pada subkelompok terpilih
Sampling di Python

Varietas kopi

Biji kopi tersusun dalam baris dan kolom.

varieties_pop = list(coffee_ratings['variety'].unique())
[None, 'Other', 'Bourbon', 'Catimor', 
'Ethiopian Yirgacheffe','Caturra', 
'SL14', 'Sumatra', 'SL34', 'Hawaiian Kona',
'Yellow Bourbon', 'SL28', 'Gesha', 'Catuai',
'Pacamara', 'Typica', 'Sumatra Lintong',
'Mundo Novo', 'Java', 'Peaberry', 'Pacas',
'Mandheling', 'Ruiru 11', 'Arusha',
'Ethiopian Heirlooms', 'Moka Peaberry',
'Sulawesi', 'Blue Mountain', 'Marigojipe', 
'Pache Comun']
Sampling di Python

Tahap 1: sampling subkelompok

Biji kopi tersusun dalam baris dan kolom; hanya tiga yang disorot, lainnya abu-abu.

import random
varieties_samp = random.sample(varieties_pop, k=3)
['Hawaiian Kona', 'Bourbon', 'SL28']
Sampling di Python

Tahap 2: sampling tiap kelompok

variety_condition = coffee_ratings['variety'].isin(varieties_samp)
coffee_ratings_cluster = coffee_ratings[variety_condition]
coffee_ratings_cluster['variety'] = coffee_ratings_cluster['variety'].cat.remove_unused_categories()
coffee_ratings_cluster.groupby("variety")\
    .sample(n=5, random_state=2021)
Sampling di Python

Keluaran tahap 2

                    total_cup_points        variety       country_of_origin  ...
variety                                                                       
Bourbon       575              82.83        Bourbon               Guatemala   
              560              82.83        Bourbon               Guatemala   
              524              83.00        Bourbon               Guatemala   
              1140             79.83        Bourbon               Guatemala   
              318              83.67        Bourbon                  Brazil   
Hawaiian Kona 1291             73.67  Hawaiian Kona  United States (Hawaii)   
              1266             76.25  Hawaiian Kona  United States (Hawaii)   
              488              83.08  Hawaiian Kona  United States (Hawaii)   
              461              83.17  Hawaiian Kona  United States (Hawaii)   
              117              84.83  Hawaiian Kona  United States (Hawaii)   
SL28          137              84.67           SL28                   Kenya   
              452              83.17           SL28                   Kenya   
              224              84.17           SL28                   Kenya   
              66               85.50           SL28                   Kenya   
              559              82.83           SL28                   Kenya   
Sampling di Python

Sampling bertahap

  • Sampling klaster adalah jenis sampling bertahap
  • Dapat > 2 tahap
  • Mis.: survei nasional bisa mengambil sampel negara bagian, county, kota, dan lingkungan
Sampling di Python

Ayo berlatih!

Sampling di Python

Preparing Video For Download...