Intervalos de confiança

Amostragem em Python

James Chapman

Curriculum Manager, DataCamp

Intervalos de confiança

  • “Valores a um desvio-padrão da média” incluem muitos valores em cada distribuição
  • Vamos definir um conceito relacionado: o intervalo de confiança
Amostragem em Python

Prevendo o tempo

  • Rapid City, Dakota do Sul (EUA) tem o clima menos previsível
  • Nosso trabalho é prever a máxima de amanhã lá

Um mapa do clima, com cores indicando quão previsíveis são as regiões.

Amostragem em Python

Nossa previsão do tempo

  • Estimativa pontual = 47°F (8,3°C)
  • Faixa plausível para a máxima = 40 a 54°F (4,4 a 12,8°C)
Amostragem em Python

Acabamos de informar um intervalo de confiança!

  • 40 a 54°F é um intervalo de confiança
  • Às vezes escrito como 47°F (40°F, 54°F) ou 47°F [40°F, 54°F]
  • ... ou 47 ± 7°F
  • 7°F é a margem de erro
Amostragem em Python

Distribuição bootstrap do sabor médio

import matplotlib.pyplot as plt
plt.hist(coffee_boot_distn, bins=15)
plt.show()

Um histograma do sabor médio do café.

Amostragem em Python

Média das reamostragens

import numpy as np
np.mean(coffee_boot_distn)
7.513452892

Um histograma do sabor médio do café com a média indicada por uma barra vertical preta.

Amostragem em Python

Média ± um desvio-padrão

np.mean(coffee_boot_distn)
7.513452892
np.mean(coffee_boot_distn) - np.std(coffee_boot_distn, ddof=1)
7.497385709174466
np.mean(coffee_boot_distn) + np.std(coffee_boot_distn, ddof=1)
7.529520074825534

Um histograma das médias de sabor do café com média e desvios-padrão indicados por barras verticais.

Amostragem em Python

Método dos quantis para intervalos de confiança

np.quantile(coffee_boot_distn, 0.025)
7.4817195
np.quantile(coffee_boot_distn, 0.975)
7.5448805

Uma linha de intervalo de confiança de 95%.

Amostragem em Python

Função de distribuição acumulada inversa

  • PDF: a curva em sino
  • CDF: integrar para obter a área sob a curva
  • CDF inversa: inverta eixos x e y

Implementado em Python com

from scipy.stats import norm
norm.ppf(quantile, loc=0, scale=1)

Função de distribuição acumulada inversa.

Amostragem em Python

Método do erro-padrão para intervalo de confiança

point_estimate = np.mean(coffee_boot_distn)
7.513452892
std_error = np.std(coffee_boot_distn, ddof=1)
0.016067182825533724
from scipy.stats import norm
lower = norm.ppf(0.025, loc=point_estimate, scale=std_error)
upper = norm.ppf(0.975, loc=point_estimate, scale=std_error)
print((lower, upper))
(7.481961792328933, 7.544943991671067)
Amostragem em Python

Vamos praticar!

Amostragem em Python

Preparing Video For Download...