El teorema del límite central

Introducción a la estadística en Python

Maggie Matsui

Content Developer, DataCamp

Tirar los dados 5 veces

die = pd.Series([1, 2, 3, 4, 5, 6])

# Roll 5 times samp_5 = die.sample(5, replace=True) print(samp_5)
array([3, 1, 4, 1, 1])
np.mean(samp_5)
2.0

 

dado de seis caras

Introducción a la estadística en Python

Tirar los dados 5 veces

# Roll 5 times and take mean
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
4.4
samp_5 = die.sample(5, replace=True)
np.mean(samp_5)
3.8
Introducción a la estadística en Python

Tirar los dados 5 veces 10 veces

Repite 10 veces:

  • Tira 5 veces
  • Obtén la media
sample_means = []

for i in range(10):
samp_5 = die.sample(5, replace=True) sample_means.append(np.mean(samp_5))
print(sample_means)
[3.8, 4.0, 3.8, 3.6, 3.2, 4.8, 2.6,
3.0, 2.6, 2.0]
Introducción a la estadística en Python

Distribuciones muestrales

Distribución muestral de la media muestral

histograma de 10 medias muestrales

Introducción a la estadística en Python

100 medias muestrales

sample_means = []
for i in range(100):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histograma de 100 medias muestrales

Introducción a la estadística en Python

1000 medias muestrales

sample_means = []
for i in range(1000):
    sample_means.append(np.mean(die.sample(5, replace=True)))

histograma de 1000 medias muestrales

Introducción a la estadística en Python

Teorema del límite central

La distribución muestral de una estadística se aproxima más a la distribución normal a medida que aumenta el número de intentos.

histogramas de 10, 100 y 1000 medias muestrales, donde un mayor número de medias muestrales tiene una distribución en forma de curva de campana

 

  • Las muestras deben ser aleatorias e independientes.
Introducción a la estadística en Python

La desviación típica y el TLC

sample_sds = []
for i in range(1000):
  sample_sds.append(np.std(die.sample(5, replace=True)))

Distribución de 1000 desviaciones típicas muestrales tras tirar el dado 5 veces

Introducción a la estadística en Python

Las proporciones y el TLC

sales_team = pd.Series(["Amir", "Brian", "Claire", "Damian"])

sales_team.sample(10, replace=True)
array(['Claire', 'Damian', 'Brian', 'Damian', 'Damian', 'Amir', 'Amir', 'Amir', 
      'Amir', 'Damian'], dtype=object)
sales_team.sample(10, replace=True)
array(['Brian', 'Amir', 'Brian', 'Claire', 'Brian', 'Damian', 'Claire', 'Brian', 
      'Claire', 'Claire'], dtype=object)
Introducción a la estadística en Python

Distribución muestral de la proporción

La distribución de las proporciones de la muestra también parece normal

Introducción a la estadística en Python

Media de la distribución muestral

# Estimate expected value of die
np.mean(sample_means)
3.48
# Estimate proportion of "Claire"s
np.mean(sample_props)
0.26

Distribución muestral de las medias muestrales con línea discontinua en el centro  

  • Se estiman las características de una distribución subyacente desconocida
  • Se estiman más fácilmente las características de grandes poblaciones
Introducción a la estadística en Python

¡Vamos a practicar!

Introducción a la estadística en Python

Preparing Video For Download...