Steekproeven en puntschattingen

Steekproeven in Python

James Chapman

Curriculum Manager, DataCamp

De bevolking van Frankrijk schatten

Een kaart van Frankrijk.

Een volkstelling vraagt elk huishouden hoeveel mensen er wonen.

Er wonen veel mensen in Frankrijk

Een kaart van Frankrijk met pictogrammen van mensen.

Volkstellingen zijn erg duur!

Huishoudens steekproefsgewijs bevragen

Een kaart van Frankrijk met pictogrammen van mensen, waarvan sommige zijn gemarkeerd.

Goedkoper: vraag een kleine groep huishoudens en gebruik statistiek om de populatie te schatten

Werken met een subset van de hele populatie heet steekproeven

Populatie vs. steekproef

De populatie is de volledige dataset

Hoeft niet over mensen te gaan
Meestal kennen we de hele populatie niet

De steekproef is de subset waarop je rekent

Koffiebeoordelingsdataset

total_cup_points	variety	country_of_origin	aroma	flavor	aftertaste	body	balance
90.58	NA	Ethiopia	8.67	8.83	8.67	8.50	8.42
89.92	Other	Ethiopia	8.75	8.67	8.50	8.42	8.42
...	...	...	...	...	...	...	...
73.75	NA	Vietnam	6.75	6.67	6.5	6.92	6.83

Elke rij is 1 koffie
1338 rijen
We behandelen dit als de populatie

Punten vs. smaak: populatie

pts_vs_flavor_pop = coffee_ratings[["total_cup_points", "flavor"]]

      total_cup_points  flavor
0                90.58    8.83
1                89.92    8.67
2                89.75    8.50
3                89.00    8.58
4                88.83    8.50
...                ...     ...
1333             78.75    7.58
1334             78.08    7.67
1335             77.17    7.33
1336             75.08    6.83
1337             73.75    6.67

[1338 rows x 2 columns]

Punten vs. smaak: steekproef van 10 rijen

pts_vs_flavor_samp = pts_vs_flavor_pop.sample(n=10)

      total_cup_points  flavor
1088             80.33    7.17
1157             79.67    7.42
1267             76.17    7.33
506              83.00    7.67
659              82.50    7.42
817              81.92    7.50
1050             80.67    7.42
685              82.42    7.50
1027             80.92    7.25
62               85.58    8.17

[10 rows x 2 columns]

Steekproeven in Python voor Series

Gebruik .sample() voor pandas DataFrames en Series

cup_points_samp = coffee_ratings['total_cup_points'].sample(n=10)

1088    80.33
1157    79.67
1267    76.17
...     ... 
685     82.42
1027    80.92
62      85.58
Name: total_cup_points, dtype: float64

Populatieparameters & puntschattingen

Een populatieparameter is een berekening op de populatiedataset

import numpy as np
np.mean(pts_vs_flavor_pop['total_cup_points'])

82.15120328849028

Een puntschatting of steekproefstatistiek is een berekening op de steekproefdataset

np.mean(cup_points_samp)

81.31800000000001

Puntschattingen met pandas

pts_vs_flavor_pop['flavor'].mean()

7.526046337817639

pts_vs_flavor_samp['flavor'].mean()

7.485000000000001

Laten we oefenen!

Steekproeven in Python