Le théorème de la limite centrale

Introduction aux statistiques en Python

Maggie Matsui

Content Developer, DataCamp

Lancer un dé 5 fois

die = pd.Series([1, 2, 3, 4, 5, 6])

# Roll 5 times
samp_5 = die.sample(5, replace=True)
print(samp_5)

array([3, 1, 4, 1, 1])

np.mean(samp_5)

2.0

dé à six faces

# Roll 5 times and take mean
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)

4.4

samp_5 = die.sample(5, replace=True)
np.mean(samp_5)

3.8

Répétez 10 fois :

sample_means = []

for i in range(10):

  samp_5 = die.sample(5, replace=True)
  sample_means.append(np.mean(samp_5))

print(sample_means)

[3.8, 4.0, 3.8, 3.6, 3.2, 4.8, 2.6,
3.0, 2.6, 2.0]

Distribution d’échantillonnage de la moyenne des échantillons

histogramme des moyennes de 10 échantillons

sample_means = []
for i in range(100):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histogramme des moyennes de 100 échantillons

sample_means = []
for i in range(1000):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histogramme des moyennes de 1000 échantillons

La distribution d’échantillonnage d’une statistique se rapproche de la distribution normale lorsque le nombre d’essais augmente.

histogrammes de 10, 100 et 1000 moyennes d’échantillon, où un nombre plus élevé de moyennes d’échantillons a une distribution plus en forme de cloche

sample_sds = []
for i in range(1000):
  sample_sds.append(np.std(die.sample(5, replace=True)))

Distribution de 1000 écarts-types d’échantillons de 5 lancers de dé

sales_team = pd.Series(["Amir", "Brian", "Claire", "Damian"])

sales_team.sample(10, replace=True)

array(['Claire', 'Damian', 'Brian', 'Damian', 'Damian', 'Amir', 'Amir', 'Amir', 
      'Amir', 'Damian'], dtype=object)

sales_team.sample(10, replace=True)

array(['Brian', 'Amir', 'Brian', 'Claire', 'Brian', 'Damian', 'Claire', 'Brian', 
      'Claire', 'Claire'], dtype=object)

La distribution des proportions de l’échantillon semble également normale

# Estimate expected value of die
np.mean(sample_means)

3.48

# Estimate proportion of "Claire"s
np.mean(sample_props)

0.26

Distribution d’échantillonnage des moyennes des échantillons avec une ligne pointillée au milieu

Introduction aux statistiques en Python