Amostragem por conveniência

Amostragem em Python

James Chapman

Curriculum Manager, DataCamp

A previsão do Literary Digest

Primeira página do Literary Digest de 1936 com manchete de previsão da eleição. Esperava-se que Landon recebesse 1,3 milhão de votos e Roosevelt um pouco menos de 1 milhão.

  • Previsão: Landon 57%; Roosevelt 43%
  • Resultado real: Landon 38%; Roosevelt 62%
  • Amostra não representava a população, gerando viés de amostragem
  • Coletar dados do jeito mais fácil é amostragem por conveniência
Amostragem em Python

Estimando a idade média dos franceses

Uma foto da Disneyland Paris.

  • Entrevistar 10 pessoas na Disneyland Paris
  • Idade média: 24,6 anos
  • Isso serve como boa estimativa para toda a França?
1 Imagem de Sean MacEntee
Amostragem em Python

Quão precisa foi a pesquisa?

Ano Idade média na França
1975 31,6
1985 33,6
1995 36,2
2005 38,9
2015 41,2
  • 24,6 anos é uma estimativa ruim
  • Quem visita a Disneyland não representa a população toda
Amostragem em Python

Amostragem por conveniência: notas de café

coffee_ratings["total_cup_points"].mean()
82.15120328849028
coffee_ratings_first10 = coffee_ratings.head(10)
coffee_ratings_first10["total_cup_points"].mean()
89.1
Amostragem em Python

Visualizando viés de seleção

import matplotlib.pyplot as plt
import numpy as np
coffee_ratings["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()

 

coffee_ratings_first10["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()
Amostragem em Python

Distribuição da população vs. amostra por conveniência

População: Um histograma dos pontos da xícara da população.

Amostra por conveniência: Um histograma dos pontos da xícara da amostra.

Amostragem em Python

Visualizando viés de seleção com amostra aleatória

coffee_sample = coffee_ratings.sample(n=10)
coffee_sample["total_cup_points"].hist(bins=np.arange(59, 93, 2))
plt.show()
Amostragem em Python

Distribuição da população vs. amostra aleatória simples

População: Um histograma dos pontos da xícara da população.

Amostra aleatória: Um histograma dos pontos da xícara de uma amostra aleatória.

Amostragem em Python

Vamos praticar!

Amostragem em Python

Preparing Video For Download...