O teorema central do limite

Introdução à estatística em Python

Maggie Matsui

Content Developer, DataCamp

Jogar os dados 5 vezes

die = pd.Series([1, 2, 3, 4, 5, 6])

# Roll 5 times samp_5 = die.sample(5, replace=True) print(samp_5)
array([3, 1, 4, 1, 1])
np.mean(samp_5)
2.0

 

dado de seis lados

Introdução à estatística em Python

Jogar os dados 5 vezes

# Roll 5 times and take mean
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
4.4
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
3.8
Introdução à estatística em Python

Jogar os dados 5 vezes 10 vezes

Repita 10 vezes:

  • Jogue 5 vezes
  • Pegue a média
sample_means = []

for i in range(10):
samp_5 = die.sample(5, replace=True) sample_means.append(np.mean(samp_5))
print(sample_means)
[3.8, 4.0, 3.8, 3.6, 3.2, 4.8, 2.6,
3.0, 2.6, 2.0]
Introdução à estatística em Python

Distribuições de amostragem

Distribuição de amostragem da média da amostra

histograma de 10 médias amostrais

Introdução à estatística em Python

100 médias amostrais

sample_means = []
for i in range(100):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histograma de 100 médias amostrais

Introdução à estatística em Python

1000 médias amostrais

sample_means = []
for i in range(1000):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histograma de 1000 médias amostrais

Introdução à estatística em Python

Teorema central do limite

A distribuição amostral de uma estatística fica mais próxima da distribuição normal conforme o número de tentativas aumenta.

histogramas de 10, 100 e 1.000 médias amostrais, em que um número maior de médias amostrais tem uma distribuição mais em forma de curva de sino

 

  • As amostras devem ser aleatórias e independentes
Introdução à estatística em Python

Desvio padrão e o TCL

sample_sds = []
for i in range(1000):
  sample_sds.append(np.std(die.sample(5, replace=True)))

Distribuição de 1000 desvios padrão de amostra de 5 lançamentos de dados

Introdução à estatística em Python

Proporções e o TCL

sales_team = pd.Series(["Amir", "Brian", "Claire", "Damian"])

sales_team.sample(10, replace=True)
array(['Claire', 'Damian', 'Brian', 'Damian', 'Damian', 'Amir', 'Amir', 'Amir', 
      'Amir', 'Damian'], dtype=object)
sales_team.sample(10, replace=True)
array(['Brian', 'Amir', 'Brian', 'Claire', 'Brian', 'Damian', 'Claire', 'Brian', 
      'Claire', 'Claire'], dtype=object)
Introdução à estatística em Python

Distribuição de amostragem da proporção

A distribuição das proporções da amostra também parece normal

Introdução à estatística em Python

Média da distribuição de amostragem

# Estimate expected value of die
np.mean(sample_means)
3.48
# Estimate proportion of "Claire"s
np.mean(sample_props)
0.26

Distribuição de amostragem de médias amostrais com linha tracejada no meio  

  • Estimar características de uma distribuição subjacente desconhecida
  • Estimar mais facilmente características de grandes grupos
Introdução à estatística em Python

Vamos praticar!

Introdução à estatística em Python

Preparing Video For Download...