De centrale limietstelling

Inleiding tot statistiek in Python

Maggie Matsui

Content Developer, DataCamp

5 keer met de dobbelsteen gooien

die = pd.Series([1, 2, 3, 4, 5, 6])

# Gooi 5 keer samp_5 = die.sample(5, replace=True) print(samp_5)
array([3, 1, 4, 1, 1])
np.mean(samp_5)
2.0

 

zeskantige dobbelsteen

Inleiding tot statistiek in Python

5 keer met de dobbelsteen gooien

# Gooi 5 keer en neem het gemiddelde
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
4.4
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
3.8
Inleiding tot statistiek in Python

5 keer gooien, 10 herhalingen

Herhaal 10 keer:

  • Gooi 5 keer
  • Neem het gemiddelde
sample_means = []

for i in range(10):
samp_5 = die.sample(5, replace=True) sample_means.append(np.mean(samp_5))
print(sample_means)
[3.8, 4.0, 3.8, 3.6, 3.2, 4.8, 2.6,
3.0, 2.6, 2.0]
Inleiding tot statistiek in Python

Steekproevenverdelingen

Steekproevenverdeling van het steekproefgemiddelde

histogram van 10 steekproefgemiddelden

Inleiding tot statistiek in Python

100 steekproefgemiddelden

sample_means = []
for i in range(100):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histogram van 100 steekproefgemiddelden

Inleiding tot statistiek in Python

1000 steekproefgemiddelden

sample_means = []
for i in range(1000):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histogram van 1000 steekproefgemiddelden

Inleiding tot statistiek in Python

Centrale limietstelling

De steekproevenverdeling van een statistiek wordt normaler naarmate het aantal trekkingen toeneemt.

histogrammen van 10, 100 en 1000 steekproefgemiddelden; bij meer gemiddelden wordt de verdeling klokvormiger

 

* Steekproeven moeten willekeurig en onafhankelijk zijn

Inleiding tot statistiek in Python

Standaarddeviatie en de CLT

sample_sds = []
for i in range(1000):
  sample_sds.append(np.std(die.sample(5, replace=True)))

Verdeling van 1000 steekproefstandaarddeviaties van 5 worpen

Inleiding tot statistiek in Python

Proporties en de CLT

sales_team = pd.Series(["Amir", "Brian", "Claire", "Damian"])

sales_team.sample(10, replace=True)
array(['Claire', 'Damian', 'Brian', 'Damian', 'Damian', 'Amir', 'Amir', 'Amir', 
      'Amir', 'Damian'], dtype=object)
sales_team.sample(10, replace=True)
array(['Brian', 'Amir', 'Brian', 'Claire', 'Brian', 'Damian', 'Claire', 'Brian', 
      'Claire', 'Claire'], dtype=object)
Inleiding tot statistiek in Python

Steekproevenverdeling van proportie

Verdeling van steekproefproporties ziet er ook normaal uit

Inleiding tot statistiek in Python

Gemiddelde van de steekproevenverdeling

# Schat verwachtingswaarde van dobbelsteen
np.mean(sample_means)
3.48
# Schat proportie "Claire"
np.mean(sample_props)
0.26

Steekproevenverdeling van steekproefgemiddelden met stippellijn in het midden  

  • Kenmerken van een onbekende onderliggende verdeling schatten
  • Kenmerken van grote populaties makkelijker schatten
Inleiding tot statistiek in Python

Laten we oefenen!

Inleiding tot statistiek in Python

Preparing Video For Download...