Der zentrale Grenzwertsatz

Einführung in die Statistik in Python

Maggie Matsui

Content Developer, DataCamp

5 Mal würfeln

die = pd.Series([1, 2, 3, 4, 5, 6])

# Roll 5 times samp_5 = die.sample(5, replace=True) print(samp_5)
array([3, 1, 4, 1, 1])
np.mean(samp_5)
2.0

 

sechsseitiger Würfel

Einführung in die Statistik in Python

5 Mal würfeln

# Roll 5 times and take mean
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
4.4
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
3.8
Einführung in die Statistik in Python

5 mal würfeln 10 mal würfeln

10 Mal wiederholen:

  • 5 Mal würfeln
  • Mittelwert nehmen
sample_means = []

for i in range(10):
samp_5 = die.sample(5, replace=True) sample_means.append(np.mean(samp_5))
print(sample_means)
[3.8, 4.0, 3.8, 3.6, 3.2, 4.8, 2.6,
3.0, 2.6, 2.0]
Einführung in die Statistik in Python

Stichprobenverteilungen

Stichprobenverteilung des Stichprobenmittelwerts

Histogramm von 10 Stichprobenmittelwerten

Einführung in die Statistik in Python

Mittelwerte von 100 Stichproben

sample_means = []
for i in range(100):
    sample_means.append(np.mean(die.sample(5, replace=True)))

Histogramm von 100 Stichprobenmittelwerten

Einführung in die Statistik in Python

Mittelwerte von 1.000 Stichproben

sample_means = []
for i in range(1000):
    sample_means.append(np.mean(die.sample(5, replace=True)))

Histogramm von 1000 Stichprobenmittelwerten

Einführung in die Statistik in Python

Zentraler Grenzwertsatz

Die Stichprobenverteilung einer Statistik nähert sich mit zunehmender Anzahl von Versuchen immer mehr der Normalverteilung an.

](https://assets.datacamp.com/production/repositories/5786/datasets/68c668ba8e7538984edc15be7f82f1855ad2dc41/Screen%20Shot%202020-07-16%20at%204.48.14%20PM.png)Histogramme von 10, 100 und 1000 Stichprobenmittelwerten, wobei eine höhere Anzahl von Stichprobenmittelwerten eine glockenförmigere Verteilung aufweist

 

  • Stichproben sollten zufällig und unabhängig sein
Einführung in die Statistik in Python

Standardabweichung und der Grenzwertsatz

sample_sds = []
for i in range(1000):
  sample_sds.append(np.std(die.sample(5, replace=True)))

Verteilung von 1000 Stichproben-Standardabweichungen von 5 Würfelwürfen

Einführung in die Statistik in Python

Mengenanteile und der Grenzwertsatz

sales_team = pd.Series(["Amir", "Brian", "Claire", "Damian"])

sales_team.sample(10, replace=True)
array(['Claire', 'Damian', 'Brian', 'Damian', 'Damian', 'Amir', 'Amir', 'Amir', 
      'Amir', 'Damian'], dtype=object)
sales_team.sample(10, replace=True)
array(['Brian', 'Amir', 'Brian', 'Claire', 'Brian', 'Damian', 'Claire', 'Brian', 
      'Claire', 'Claire'], dtype=object)
Einführung in die Statistik in Python

Stichprobenverteilung der Mengenanteile

distribution_of_sample_proportions_also_looks_normal.png

Einführung in die Statistik in Python

Mittelwert der Stichprobenverteilung

# Estimate expected value of die
np.mean(sample_means)
3.48
# Estimate proportion of "Claire"s
np.mean(sample_props)
0.26

Stichprobenverteilung der Stichprobenmittelwerte mit gestrichelter Linie in der Mitte   

  • Merkmale der unbekannten zugrunde liegenden Verteilung schätzen
  • Einfachere Schätzung von Merkmalen großer Populationen
Einführung in die Statistik in Python

Lass uns üben!

Einführung in die Statistik in Python

Preparing Video For Download...