Inleiding tot statistiek in Python
Maggie Matsui
Content Developer, DataCamp
die = pd.Series([1, 2, 3, 4, 5, 6])# Gooi 5 keer samp_5 = die.sample(5, replace=True) print(samp_5)
array([3, 1, 4, 1, 1])
np.mean(samp_5)
2.0

# Gooi 5 keer en neem het gemiddelde
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
4.4
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
3.8
Herhaal 10 keer:
sample_means = []for i in range(10):samp_5 = die.sample(5, replace=True) sample_means.append(np.mean(samp_5))print(sample_means)
[3.8, 4.0, 3.8, 3.6, 3.2, 4.8, 2.6,
3.0, 2.6, 2.0]
Steekproevenverdeling van het steekproefgemiddelde

sample_means = []
for i in range(100):
sample_means.append(np.mean(die.sample(5, replace=True)))

sample_means = []
for i in range(1000):
sample_means.append(np.mean(die.sample(5, replace=True)))

De steekproevenverdeling van een statistiek wordt normaler naarmate het aantal trekkingen toeneemt.

* Steekproeven moeten willekeurig en onafhankelijk zijn
sample_sds = []
for i in range(1000):
sample_sds.append(np.std(die.sample(5, replace=True)))

sales_team = pd.Series(["Amir", "Brian", "Claire", "Damian"])sales_team.sample(10, replace=True)
array(['Claire', 'Damian', 'Brian', 'Damian', 'Damian', 'Amir', 'Amir', 'Amir',
'Amir', 'Damian'], dtype=object)
sales_team.sample(10, replace=True)
array(['Brian', 'Amir', 'Brian', 'Claire', 'Brian', 'Damian', 'Claire', 'Brian',
'Claire', 'Claire'], dtype=object)

# Schat verwachtingswaarde van dobbelsteen
np.mean(sample_means)
3.48
# Schat proportie "Claire"
np.mean(sample_props)
0.26
Inleiding tot statistiek in Python