Pengambilan sampel dan estimasi titik

Sampling di Python

James Chapman

Curriculum Manager, DataCamp

Mengestimasi populasi Prancis

Peta Prancis.

Sensus menanyakan setiap rumah tangga berapa orang yang tinggal di sana.

Ada banyak orang di Prancis

Peta Prancis dengan ikon orang.

Sensus itu sangat mahal!

Mengambil sampel rumah tangga

Peta Prancis dengan ikon orang, sebagian disorot.

Lebih murah menanyai sebagian kecil rumah tangga dan gunakan statistika untuk mengestimasi populasi

Bekerja dengan subset dari seluruh populasi disebut pengambilan sampel

Populasi vs. sampel

Populasi adalah seluruh dataset

Tidak harus merujuk pada orang
Biasanya, kita tidak tahu seluruh populasi

Sampel adalah subset data yang dihitung

Dataset penilaian kopi

total_cup_points	variety	country_of_origin	aroma	flavor	aftertaste	body	balance
90.58	NA	Ethiopia	8.67	8.83	8.67	8.50	8.42
89.92	Other	Ethiopia	8.75	8.67	8.50	8.42	8.42
...	...	...	...	...	...	...	...
73.75	NA	Vietnam	6.75	6.67	6.5	6.92	6.83

Tiap baris merepresentasikan 1 kopi
1338 baris
Kita anggap ini sebagai populasi

Poin vs. rasa: populasi

pts_vs_flavor_pop = coffee_ratings[["total_cup_points", "flavor"]]

      total_cup_points  flavor
0                90.58    8.83
1                89.92    8.67
2                89.75    8.50
3                89.00    8.58
4                88.83    8.50
...                ...     ...
1333             78.75    7.58
1334             78.08    7.67
1335             77.17    7.33
1336             75.08    6.83
1337             73.75    6.67

[1338 baris x 2 kolom]

Poin vs. rasa: sampel 10 baris

pts_vs_flavor_samp = pts_vs_flavor_pop.sample(n=10)

      total_cup_points  flavor
1088             80.33    7.17
1157             79.67    7.42
1267             76.17    7.33
506              83.00    7.67
659              82.50    7.42
817              81.92    7.50
1050             80.67    7.42
685              82.42    7.50
1027             80.92    7.25
62               85.58    8.17

[10 baris x 2 kolom]

Pengambilan sampel Python untuk Series

Gunakan .sample() untuk DataFrame dan Series pandas

cup_points_samp = coffee_ratings['total_cup_points'].sample(n=10)

1088    80.33
1157    79.67
1267    76.17
...     ... 
685     82.42
1027    80.92
62      85.58
Name: total_cup_points, dtype: float64

Parameter populasi & estimasi titik

Parameter populasi adalah perhitungan pada dataset populasi

import numpy as np
np.mean(pts_vs_flavor_pop['total_cup_points'])

82.15120328849028

Estimasi titik atau statistik sampel adalah perhitungan pada dataset sampel

np.mean(cup_points_samp)

81.31800000000001

Estimasi titik dengan pandas

pts_vs_flavor_pop['flavor'].mean()

7.526046337817639

pts_vs_flavor_samp['flavor'].mean()

7.485000000000001

Ayo berlatih!

Sampling di Python