Betrouwbaarheidsintervallen en steekproeven

Basis van inferentie in Python

Paul Savala

Assistant Professor of Mathematics

Wat is een betrouwbaarheidsinterval?

  • Gebruikt steekproeven om een waardenbereik te maken
  • Dat bereik schat de populatiestatistiek

Voorbeeld:

  • Steekproef van 100 medewerkers
  • Gemiddeld salaris $80.000
  • Standaarddeviatie $10.000

Een betrouwbaarheidsinterval met 78.040 dollar links, 81.959 dollar rechts en 80.000 dollar in het midden.

Basis van inferentie in Python

Een betrouwbaarheidsinterval berekenen

from scipy import stats
import numpy as np


ci = stats.norm.interval(loc=80000, # Mean
scale=10000/np.sqrt(100), # Standard error
alpha=0.95) # Confidence level
print(ci)
(78040.04, 81959.96)

Geldige inferentie vereist een normale steekproevenverdeling

Basis van inferentie in Python

Centrale limietstelling

  • Gemiddelde van veel onafhankelijke steekproeven
  • Steekproevenverdeling is ongeveer normaal
population = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
sample_means = []

for i in range(1000):
sample_5 = np.random.choice(population, size=5)
sample_means.append(sample_5.mean())
Basis van inferentie in Python
plt.hist(sample_means)

Een histogram met "gemiddelde van steekproef" op de x-as, "frequentie" op de y-as, de titel "steekproevenverdeling", en een bijna normale verdeling rond vijf.

Basis van inferentie in Python

Een grote stad met zowel hoge kantoorgebouwen als kleinere vervallen huizen.

Basis van inferentie in Python

Wat vertelt een betrouwbaarheidsinterval?

(en wat ze níét vertellen)

  • Populatiestatistiek valt wel of niet in het interval
  • Bij herhaalde steekproeven ligt 95% van de intervallen rond de populatiestatistiek
Basis van inferentie in Python

Laten we oefenen!

Basis van inferentie in Python

Preparing Video For Download...