De centrale limietstelling

Inleiding tot statistiek in Python

Maggie Matsui

Content Developer, DataCamp

5 keer met de dobbelsteen gooien

die = pd.Series([1, 2, 3, 4, 5, 6])

# Gooi 5 keer
samp_5 = die.sample(5, replace=True)
print(samp_5)

array([3, 1, 4, 1, 1])

np.mean(samp_5)

2.0

zeskantige dobbelsteen

# Gooi 5 keer en neem het gemiddelde
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)

4.4

samp_5 = die.sample(5, replace=True)
np.mean(samp_5)

3.8

Herhaal 10 keer:

sample_means = []

for i in range(10):

  samp_5 = die.sample(5, replace=True)
  sample_means.append(np.mean(samp_5))

print(sample_means)

[3.8, 4.0, 3.8, 3.6, 3.2, 4.8, 2.6,
3.0, 2.6, 2.0]

Steekproevenverdeling van het steekproefgemiddelde

histogram van 10 steekproefgemiddelden

sample_means = []
for i in range(100):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histogram van 100 steekproefgemiddelden

sample_means = []
for i in range(1000):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histogram van 1000 steekproefgemiddelden

De steekproevenverdeling van een statistiek wordt normaler naarmate het aantal trekkingen toeneemt.

histogrammen van 10, 100 en 1000 steekproefgemiddelden; bij meer gemiddelden wordt de verdeling klokvormiger

* Steekproeven moeten willekeurig en onafhankelijk zijn

sample_sds = []
for i in range(1000):
  sample_sds.append(np.std(die.sample(5, replace=True)))

Verdeling van 1000 steekproefstandaarddeviaties van 5 worpen

sales_team = pd.Series(["Amir", "Brian", "Claire", "Damian"])

sales_team.sample(10, replace=True)

array(['Claire', 'Damian', 'Brian', 'Damian', 'Damian', 'Amir', 'Amir', 'Amir', 
      'Amir', 'Damian'], dtype=object)

sales_team.sample(10, replace=True)

array(['Brian', 'Amir', 'Brian', 'Claire', 'Brian', 'Damian', 'Claire', 'Brian', 
      'Claire', 'Claire'], dtype=object)

Verdeling van steekproefproporties ziet er ook normaal uit

# Schat verwachtingswaarde van dobbelsteen
np.mean(sample_means)

3.48

# Schat proportie "Claire"
np.mean(sample_props)

0.26

Steekproevenverdeling van steekproefgemiddelden met stippellijn in het midden

Inleiding tot statistiek in Python