Intervalos de confianza

Muestreo en Python

James Chapman

Curriculum Manager, DataCamp

Intervalos de confianza

  • «Valores a una desviación estándar de la media» incluye muchos valores de cada distribución
  • Definiremos un concepto relacionado: el intervalo de confianza
Muestreo en Python

Predecir el tiempo

  • Rapid City, Dakota del Sur (EE. UU.) tiene el clima menos predecible
  • Nuestro trabajo es predecir la máxima de mañana allí

Mapa del tiempo con colores que indican lo predecible de cada región.

Muestreo en Python

Nuestra predicción del tiempo

  • Estimación puntual = 47 °F (8,3 °C)
  • Rango plausible de máximas = 40 a 54 °F (4,4 a 12,8 °C)
Muestreo en Python

¡Acabamos de reportar un intervalo de confianza!

  • 40 a 54 °F es un intervalo de confianza
  • A veces: 47 °F (40 °F, 54 °F) o 47 °F [40 °F, 54 °F]
  • ... o 47 ± 7 °F
  • 7 °F es el margen de error
Muestreo en Python

Distribución bootstrap del sabor medio

import matplotlib.pyplot as plt
plt.hist(coffee_boot_distn, bins=15)
plt.show()

Histograma del sabor medio del café.

Muestreo en Python

Media de las remuestras

import numpy as np
np.mean(coffee_boot_distn)
7.513452892

Histograma del sabor medio del café con la media indicada por una barra vertical negra.

Muestreo en Python

Media ± una desviación estándar

np.mean(coffee_boot_distn)
7.513452892
np.mean(coffee_boot_distn) - np.std(coffee_boot_distn, ddof=1)
7.497385709174466
np.mean(coffee_boot_distn) + np.std(coffee_boot_distn, ddof=1)
7.529520074825534

Histograma de medias de sabor del café con media y desviaciones estándar indicadas por barras verticales.

Muestreo en Python

Método de cuantiles para intervalos de confianza

np.quantile(coffee_boot_distn, 0.025)
7.4817195
np.quantile(coffee_boot_distn, 0.975)
7.5448805

Intervalo de confianza del 95 por ciento.

Muestreo en Python

Función de distribución acumulada inversa

  • PDF: la campana
  • CDF: integrar para el área bajo la campana
  • Inv. CDF: intercambia ejes x e y

Implementado en Python con

from scipy.stats import norm
norm.ppf(quantile, loc=0, scale=1)

Función de distribución acumulada inversa.

Muestreo en Python

Método del error estándar para el intervalo de confianza

point_estimate = np.mean(coffee_boot_distn)
7.513452892
std_error = np.std(coffee_boot_distn, ddof=1)
0.016067182825533724
from scipy.stats import norm
lower = norm.ppf(0.025, loc=point_estimate, scale=std_error)
upper = norm.ppf(0.975, loc=point_estimate, scale=std_error)
print((lower, upper))
(7.481961792328933, 7.544943991671067)
Muestreo en Python

¡Vamos a practicar!

Muestreo en Python

Preparing Video For Download...