Muestreo por conglomerados

Muestreo en Python

James Chapman

Curriculum Manager, DataCamp

Muestreo estratificado vs. por conglomerados

Muestreo estratificado

  • Divide la población en subgrupos
  • Usa muestreo aleatorio simple en cada subgrupo

Muestreo por conglomerados

  • Usa muestreo aleatorio simple para elegir algunos subgrupos
  • Usa muestreo aleatorio simple solo en esos subgrupos
Muestreo en Python

Variedades de café

Granos de café dispuestos en filas y columnas.

varieties_pop = list(coffee_ratings['variety'].unique())
[None, 'Other', 'Bourbon', 'Catimor', 
'Ethiopian Yirgacheffe','Caturra', 
'SL14', 'Sumatra', 'SL34', 'Hawaiian Kona',
'Yellow Bourbon', 'SL28', 'Gesha', 'Catuai',
'Pacamara', 'Typica', 'Sumatra Lintong',
'Mundo Novo', 'Java', 'Peaberry', 'Pacas',
'Mandheling', 'Ruiru 11', 'Arusha',
'Ethiopian Heirlooms', 'Moka Peaberry',
'Sulawesi', 'Blue Mountain', 'Marigojipe', 
'Pache Comun']
Muestreo en Python

Fase 1: muestreo de subgrupos

Granos de café en filas y columnas, todos en gris salvo tres.

import random
varieties_samp = random.sample(varieties_pop, k=3)
['Hawaiian Kona', 'Bourbon', 'SL28']
Muestreo en Python

Fase 2: muestreo en cada grupo

variety_condition = coffee_ratings['variety'].isin(varieties_samp)
coffee_ratings_cluster = coffee_ratings[variety_condition]
coffee_ratings_cluster['variety'] = coffee_ratings_cluster['variety'].cat.remove_unused_categories()
coffee_ratings_cluster.groupby("variety")\
    .sample(n=5, random_state=2021)
Muestreo en Python

Salida de la fase 2

                    total_cup_points        variety       country_of_origin  ...
variety                                                                       
Bourbon       575              82.83        Bourbon               Guatemala   
              560              82.83        Bourbon               Guatemala   
              524              83.00        Bourbon               Guatemala   
              1140             79.83        Bourbon               Guatemala   
              318              83.67        Bourbon                  Brazil   
Hawaiian Kona 1291             73.67  Hawaiian Kona  United States (Hawaii)   
              1266             76.25  Hawaiian Kona  United States (Hawaii)   
              488              83.08  Hawaiian Kona  United States (Hawaii)   
              461              83.17  Hawaiian Kona  United States (Hawaii)   
              117              84.83  Hawaiian Kona  United States (Hawaii)   
SL28          137              84.67           SL28                   Kenya   
              452              83.17           SL28                   Kenya   
              224              84.17           SL28                   Kenya   
              66               85.50           SL28                   Kenya   
              559              82.83           SL28                   Kenya   
Muestreo en Python

Muestreo en varias fases

  • El muestreo por conglomerados es un tipo de muestreo en varias fases
  • Puede tener > 2 fases
  • P. ej., las encuestas nacionales pueden muestrear estados, condados, ciudades y barrios
Muestreo en Python

¡Vamos a practicar!

Muestreo en Python

Preparing Video For Download...