Pengambilan sampel dan estimasi titik

Sampling di Python

James Chapman

Curriculum Manager, DataCamp

Mengestimasi populasi Prancis

Peta Prancis.

Sensus menanyakan setiap rumah tangga berapa orang yang tinggal di sana.

Sampling di Python

Ada banyak orang di Prancis

Peta Prancis dengan ikon orang.

Sensus itu sangat mahal!

Sampling di Python

Mengambil sampel rumah tangga

Peta Prancis dengan ikon orang, sebagian disorot.

Lebih murah menanyai sebagian kecil rumah tangga dan gunakan statistika untuk mengestimasi populasi

Bekerja dengan subset dari seluruh populasi disebut pengambilan sampel

Sampling di Python

Populasi vs. sampel

Populasi adalah seluruh dataset

  • Tidak harus merujuk pada orang
  • Biasanya, kita tidak tahu seluruh populasi

 

Sampel adalah subset data yang dihitung

Sampling di Python

Dataset penilaian kopi

total_cup_points variety country_of_origin aroma flavor aftertaste body balance
90.58 NA Ethiopia 8.67 8.83 8.67 8.50 8.42
89.92 Other Ethiopia 8.75 8.67 8.50 8.42 8.42
... ... ... ... ... ... ... ...
73.75 NA Vietnam 6.75 6.67 6.5 6.92 6.83

 

  • Tiap baris merepresentasikan 1 kopi
  • 1338 baris
  • Kita anggap ini sebagai populasi
Sampling di Python

Poin vs. rasa: populasi

pts_vs_flavor_pop = coffee_ratings[["total_cup_points", "flavor"]]
      total_cup_points  flavor
0                90.58    8.83
1                89.92    8.67
2                89.75    8.50
3                89.00    8.58
4                88.83    8.50
...                ...     ...
1333             78.75    7.58
1334             78.08    7.67
1335             77.17    7.33
1336             75.08    6.83
1337             73.75    6.67

[1338 baris x 2 kolom]
Sampling di Python

Poin vs. rasa: sampel 10 baris

pts_vs_flavor_samp = pts_vs_flavor_pop.sample(n=10)
      total_cup_points  flavor
1088             80.33    7.17
1157             79.67    7.42
1267             76.17    7.33
506              83.00    7.67
659              82.50    7.42
817              81.92    7.50
1050             80.67    7.42
685              82.42    7.50
1027             80.92    7.25
62               85.58    8.17

[10 baris x 2 kolom]
Sampling di Python

Pengambilan sampel Python untuk Series

  • Gunakan .sample() untuk DataFrame dan Series pandas
cup_points_samp = coffee_ratings['total_cup_points'].sample(n=10)
1088    80.33
1157    79.67
1267    76.17
...     ... 
685     82.42
1027    80.92
62      85.58
Name: total_cup_points, dtype: float64
Sampling di Python

Parameter populasi & estimasi titik

Parameter populasi adalah perhitungan pada dataset populasi

import numpy as np
np.mean(pts_vs_flavor_pop['total_cup_points'])
82.15120328849028

Estimasi titik atau statistik sampel adalah perhitungan pada dataset sampel

np.mean(cup_points_samp)
81.31800000000001
Sampling di Python

Estimasi titik dengan pandas

pts_vs_flavor_pop['flavor'].mean()
7.526046337817639
pts_vs_flavor_samp['flavor'].mean()
7.485000000000001
Sampling di Python

Ayo berlatih!

Sampling di Python

Preparing Video For Download...