Le théorème de la limite centrale

Introduction aux statistiques en Python

Maggie Matsui

Content Developer, DataCamp

Lancer un dé 5 fois

die = pd.Series([1, 2, 3, 4, 5, 6])

# Roll 5 times samp_5 = die.sample(5, replace=True) print(samp_5)
array([3, 1, 4, 1, 1])
np.mean(samp_5)
2.0

 

dé à six faces

Introduction aux statistiques en Python

Lancer un dé 5 fois

# Roll 5 times and take mean
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
4.4
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
3.8
Introduction aux statistiques en Python

Lancer cinq fois les dés, dix fois

Répétez 10 fois :

  • Lancer 5 fois le dé
  • Prendre la moyenne
sample_means = []

for i in range(10):
samp_5 = die.sample(5, replace=True) sample_means.append(np.mean(samp_5))
print(sample_means)
[3.8, 4.0, 3.8, 3.6, 3.2, 4.8, 2.6,
3.0, 2.6, 2.0]
Introduction aux statistiques en Python

Distributions d’échantillonnage

Distribution d’échantillonnage de la moyenne des échantillons

histogramme des moyennes de 10 échantillons

Introduction aux statistiques en Python

Les moyennes de 100 échantillons

sample_means = []
for i in range(100):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histogramme des moyennes de 100 échantillons

Introduction aux statistiques en Python

Les moyennes de 1000 échantillons

sample_means = []
for i in range(1000):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histogramme des moyennes de 1000 échantillons

Introduction aux statistiques en Python

Théorème de la limite centrale

La distribution d’échantillonnage d’une statistique se rapproche de la distribution normale lorsque le nombre d’essais augmente.

histogrammes de 10, 100 et 1000 moyennes d’échantillon, où un nombre plus élevé de moyennes d’échantillons a une distribution plus en forme de cloche

 

  • Les échantillons doivent être aléatoires et indépendants
Introduction aux statistiques en Python

L’écart-type et le théorème de la limite centrale

sample_sds = []
for i in range(1000):
  sample_sds.append(np.std(die.sample(5, replace=True)))

Distribution de 1000 écarts-types d’échantillons de 5 lancers de dé

Introduction aux statistiques en Python

Les proportions et le théorème de la limite centrale

sales_team = pd.Series(["Amir", "Brian", "Claire", "Damian"])

sales_team.sample(10, replace=True)
array(['Claire', 'Damian', 'Brian', 'Damian', 'Damian', 'Amir', 'Amir', 'Amir', 
      'Amir', 'Damian'], dtype=object)
sales_team.sample(10, replace=True)
array(['Brian', 'Amir', 'Brian', 'Claire', 'Brian', 'Damian', 'Claire', 'Brian', 
      'Claire', 'Claire'], dtype=object)
Introduction aux statistiques en Python

Distribution d’échantillonnage de la proportion

La distribution des proportions de l’échantillon semble également normale

Introduction aux statistiques en Python

Moyenne de la distribution d’échantillonnage

# Estimate expected value of die
np.mean(sample_means)
3.48
# Estimate proportion of "Claire"s
np.mean(sample_props)
0.26

Distribution d’échantillonnage des moyennes des échantillons avec une ligne pointillée au milieu  

  • Estimer les caractéristiques d’une distribution sous-jacente inconnue
  • Estimer plus facilement les caractéristiques de grandes populations
Introduction aux statistiques en Python

Passons à la pratique !

Introduction aux statistiques en Python

Preparing Video For Download...