Der zentrale Grenzwertsatz

Einführung in die Statistik in Python

Maggie Matsui

Content Developer, DataCamp

5 Mal würfeln

die = pd.Series([1, 2, 3, 4, 5, 6])

# Roll 5 times
samp_5 = die.sample(5, replace=True)
print(samp_5)

array([3, 1, 4, 1, 1])

np.mean(samp_5)

2.0

sechsseitiger Würfel

5 Mal würfeln

# Roll 5 times and take mean
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)

4.4

samp_5 = die.sample(5, replace=True)
np.mean(samp_5)

3.8

5 mal würfeln 10 mal würfeln

10 Mal wiederholen:

5 Mal würfeln
Mittelwert nehmen

sample_means = []

for i in range(10):

  samp_5 = die.sample(5, replace=True)
  sample_means.append(np.mean(samp_5))

print(sample_means)

[3.8, 4.0, 3.8, 3.6, 3.2, 4.8, 2.6,
3.0, 2.6, 2.0]

Stichprobenverteilungen

Stichprobenverteilung des Stichprobenmittelwerts

Histogramm von 10 Stichprobenmittelwerten

Mittelwerte von 100 Stichproben

sample_means = []
for i in range(100):
    sample_means.append(np.mean(die.sample(5, replace=True)))

Histogramm von 100 Stichprobenmittelwerten

Mittelwerte von 1.000 Stichproben

sample_means = []
for i in range(1000):
    sample_means.append(np.mean(die.sample(5, replace=True)))

Histogramm von 1000 Stichprobenmittelwerten

Zentraler Grenzwertsatz

Die Stichprobenverteilung einer Statistik nähert sich mit zunehmender Anzahl von Versuchen immer mehr der Normalverteilung an.

](https://assets.datacamp.com/production/repositories/5786/datasets/68c668ba8e7538984edc15be7f82f1855ad2dc41/Screen%20Shot%202020-07-16%20at%204.48.14%20PM.png)Histogramme von 10, 100 und 1000 Stichprobenmittelwerten, wobei eine höhere Anzahl von Stichprobenmittelwerten eine glockenförmigere Verteilung aufweist

Stichproben sollten zufällig und unabhängig sein

Standardabweichung und der Grenzwertsatz

sample_sds = []
for i in range(1000):
  sample_sds.append(np.std(die.sample(5, replace=True)))

Verteilung von 1000 Stichproben-Standardabweichungen von 5 Würfelwürfen

Mengenanteile und der Grenzwertsatz

sales_team = pd.Series(["Amir", "Brian", "Claire", "Damian"])

sales_team.sample(10, replace=True)

array(['Claire', 'Damian', 'Brian', 'Damian', 'Damian', 'Amir', 'Amir', 'Amir', 
      'Amir', 'Damian'], dtype=object)

sales_team.sample(10, replace=True)

array(['Brian', 'Amir', 'Brian', 'Claire', 'Brian', 'Damian', 'Claire', 'Brian', 
      'Claire', 'Claire'], dtype=object)

Stichprobenverteilung der Mengenanteile

distribution_of_sample_proportions_also_looks_normal.png

Mittelwert der Stichprobenverteilung

# Estimate expected value of die
np.mean(sample_means)

3.48

# Estimate proportion of "Claire"s
np.mean(sample_props)

0.26

Stichprobenverteilung der Stichprobenmittelwerte mit gestrichelter Linie in der Mitte

Merkmale der unbekannten zugrunde liegenden Verteilung schätzen
Einfachere Schätzung von Merkmalen großer Populationen

Lass uns üben!

Einführung in die Statistik in Python