Steekproeven en bias

Basis van inferentie in Python

Paul Savala

Assistant Professor of Mathematics

Bias

  • Gekleurde steekproef: Een groep komt vaker/minder vaak voor in de steekproef dan in de populatie

Een groep mensen met verschillende kleuren shirts, maar een steekproef met alleen mensen in groene shirts.

Basis van inferentie in Python

Gekleurde steekproeven

all_salaries = [75000, 82000, ...]
friends_salaries = [93000, 87000, 103000, 101000]

np.mean(friends_salaries)
96000
Basis van inferentie in Python

Steekproevenverdeling

sampling_distribution = []

for i in range(100):
random_sample = np.random.choice(salaries, size=10) sample_mean = np.mean(random_sample)
sampling_distribution.append(sample_mean)
plt.hist(sampling_distribution) plt.xlabel('Mean salary') plt.ylabel('Percent of samples') plt.title('Sampling distribution of mean salaries') plt.show()
Basis van inferentie in Python

Histogram van de steekproevenverdeling van gemiddelde salarissen. Een ruwe klokvorm rond circa tweeëntachtigduizend dollar, met minimum rond zeventigduizend en maximum rond vijfennegentigduizend dollar.

Basis van inferentie in Python

Hangt af van de steekproef

  • Steekproeven beïnvloeden puntschattingen
  • Puntschattingen sturen inferentie
  • Steekproeven beïnvloeden p-waardeberekeningen
Basis van inferentie in Python

Hangt niet van de steekproef af

  • Populatiestatistiek
    • Onafhankelijk van de gekozen steekproef
  • Conclusie uit toets
    • Bij een p-waarde is de conclusie onafhankelijk van de gekozen steekproef
Basis van inferentie in Python

Laten we oefenen!

Basis van inferentie in Python

Preparing Video For Download...