Betrouwbaarheidsintervallen en steekproeven

Basis van inferentie in Python

Paul Savala

Assistant Professor of Mathematics

Wat is een betrouwbaarheidsinterval?

Gebruikt steekproeven om een waardenbereik te maken
Dat bereik schat de populatiestatistiek

Voorbeeld:

Steekproef van 100 medewerkers
Gemiddeld salaris $80.000
Standaarddeviatie $10.000

Een betrouwbaarheidsinterval met 78.040 dollar links, 81.959 dollar rechts en 80.000 dollar in het midden.

Een betrouwbaarheidsinterval berekenen

from scipy import stats
import numpy as np


ci = stats.norm.interval(loc=80000,                  # Mean

                         scale=10000/np.sqrt(100),   # Standard error

                         alpha=0.95)                 # Confidence level

print(ci)

(78040.04, 81959.96)

Geldige inferentie vereist een normale steekproevenverdeling

Centrale limietstelling

Gemiddelde van veel onafhankelijke steekproeven
Steekproevenverdeling is ongeveer normaal

population = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
sample_means = []


for i in range(1000):

  sample_5 = np.random.choice(population, size=5)

  sample_means.append(sample_5.mean())

plt.hist(sample_means)

Een histogram met "gemiddelde van steekproef" op de x-as, "frequentie" op de y-as, de titel "steekproevenverdeling", en een bijna normale verdeling rond vijf.

Een grote stad met zowel hoge kantoorgebouwen als kleinere vervallen huizen.

Wat vertelt een betrouwbaarheidsinterval?

(en wat ze níét vertellen)

Populatiestatistiek valt wel of niet in het interval
Bij herhaalde steekproeven ligt 95% van de intervallen rond de populatiestatistiek

Laten we oefenen!

Basis van inferentie in Python