Amostragem por conglomerados

Amostragem em Python

James Chapman

Curriculum Manager, DataCamp

Estratificada vs. por conglomerados

Amostragem estratificada

  • Divida a população em subgrupos
  • Use amostragem aleatória simples em cada subgrupo

Amostragem por conglomerados

  • Use amostragem aleatória simples para escolher alguns subgrupos
  • Faça amostragem aleatória simples só nesses subgrupos
Amostragem em Python

Variedades de café

Grãos de café dispostos em linhas e colunas.

varieties_pop = list(coffee_ratings['variety'].unique())
[None, 'Other', 'Bourbon', 'Catimor', 
'Ethiopian Yirgacheffe','Caturra', 
'SL14', 'Sumatra', 'SL34', 'Hawaiian Kona',
'Yellow Bourbon', 'SL28', 'Gesha', 'Catuai',
'Pacamara', 'Typica', 'Sumatra Lintong',
'Mundo Novo', 'Java', 'Peaberry', 'Pacas',
'Mandheling', 'Ruiru 11', 'Arusha',
'Ethiopian Heirlooms', 'Moka Peaberry',
'Sulawesi', 'Blue Mountain', 'Marigojipe', 
'Pache Comun']
Amostragem em Python

Etapa 1: amostrar subgrupos

Grãos de café em linhas e colunas, todos acinzentados, exceto três.

import random
varieties_samp = random.sample(varieties_pop, k=3)
['Hawaiian Kona', 'Bourbon', 'SL28']
Amostragem em Python

Etapa 2: amostrar cada grupo

variety_condition = coffee_ratings['variety'].isin(varieties_samp)
coffee_ratings_cluster = coffee_ratings[variety_condition]
coffee_ratings_cluster['variety'] = coffee_ratings_cluster['variety'].cat.remove_unused_categories()
coffee_ratings_cluster.groupby("variety")\
    .sample(n=5, random_state=2021)
Amostragem em Python

Saída da etapa 2

                    total_cup_points        variety       country_of_origin  ...
variety                                                                       
Bourbon       575              82.83        Bourbon               Guatemala   
              560              82.83        Bourbon               Guatemala   
              524              83.00        Bourbon               Guatemala   
              1140             79.83        Bourbon               Guatemala   
              318              83.67        Bourbon                  Brazil   
Hawaiian Kona 1291             73.67  Hawaiian Kona  United States (Hawaii)   
              1266             76.25  Hawaiian Kona  United States (Hawaii)   
              488              83.08  Hawaiian Kona  United States (Hawaii)   
              461              83.17  Hawaiian Kona  United States (Hawaii)   
              117              84.83  Hawaiian Kona  United States (Hawaii)   
SL28          137              84.67           SL28                   Kenya   
              452              83.17           SL28                   Kenya   
              224              84.17           SL28                   Kenya   
              66               85.50           SL28                   Kenya   
              559              82.83           SL28                   Kenya   
Amostragem em Python

Amostragem em múltiplas etapas

  • Amostragem por conglomerados é um tipo de amostragem em múltiplas etapas
  • Pode ter > 2 etapas
  • Ex.: pesquisas nacionais podem amostrar estados, municípios, cidades e bairros
Amostragem em Python

Vamos praticar!

Amostragem em Python

Preparing Video For Download...