Gelaagde aselecte steekproef

Enquètegegevens analyseren in Python

EbunOluwa Andrew

Data Scientist

Wat is een gestratificeerde aselecte steekproef?

  • Gestratificeerde steekproef weerspiegelt de populatie beter
  • Methode: populatie opdelen in niet-overlappende groepen (strata) met vergelijkbare kenmerken
  • Hersampelen zodat de verhoudingen overeenkomen met de populatie

Demografische verandering: groeiende diversiteit in een populatie

Enquètegegevens analyseren in Python

Waarom een gestratificeerde aselecte steekproef?

  • Minimaliseert selectiebias
  • Verhoogt de representativiteit van groepen
  • Voorbeelden:
    • Inkomen schatten voor diverse populaties
    • Peilingen inschatten
    • Levensverwachting schatten

Handteller om hoofdcount te tellen

Enquètegegevens analyseren in Python

Wanneer geen gestratificeerde aselecte steekproef gebruiken

  • Subgroepen mogen niet overlappen
    • Als iemand in meerdere groepen valt -> vertekening
  • Voorbeeld van overlap in een enquêtevraag
    • Hoelang werk je al bij je huidige baan?
      • 1-2 jaar
      • 2-4 jaar

nadenkende vrouw

Enquètegegevens analyseren in Python

Resultaten onsite-werk-enquête bij bedrijf ABC

| employee_id | gender | onsite_work |
|-------------|--------|-------------|
|    fffe6838 | Male   | Yes         |
|   fffe12184 | Female | Yes         |
|    fffe9404 | Female | Yes         |
|   fffe17578 | Male   | Yes         |
|   fffe22257 | Female | Yes         |
|    fffe6217 | Male   | Yes         |
|    fffe7828 | Female | Yes         |
|   fffe18192 | Male   | Yes         |
|    fffe2839 | Female | Yes         |
|   fffe16173 | Female | Yes         |

Enquètegegevens analyseren in Python

Controleer verhoudingen in de populatie

survey.gender.value_counts(normalize=True)
Female    0.556
Male      0.444
Name: gender, dtype: float64
Enquètegegevens analyseren in Python

Verhoudingen in de populatie plotten

import pandas as pd
import matplotlib.pyplot as plt

survey.gender.value_counts().plot.pie()

Verhouding vrouwen/mannen in enquête

Enquètegegevens analyseren in Python

Voorbeeld: gestratificeerde steekproef

strat_sample = 
survey.groupby(
  'gender', group_keys = False).apply(
  lambda x: x.sample(frac = 0.1))
| employee_id | gender | onsite_work |
|-------------|--------|-------------|
|    fffe4934 | Female | Yes         |
|    fffe3958 | Female | Yes         |
|      fffe18 | Female | Yes         |
|     fffe283 | Female | Yes         |
|   fffe20382 | Female | Yes         |
|    fffe8721 | Male   | Yes         |
|    fffe5955 | Male   | Yes         |
|    fffe7081 | Male   | Yes         |
|     fffe353 | Male   | Yes         |
|    fffe1765 | Male   | Yes         |

Enquètegegevens analyseren in Python

Controleer verhoudingen in de steekproef

Originele populatie

survey.gender.value_counts(normalize=True)

Gelaagde steekproef

strat_sample.gender.value_counts(
  normalize=True))
Female    0.556
Male      0.444
Name: gender, dtype: float64
Female    0.56
Male      0.44
Name: gender, dtype: float64
Enquètegegevens analyseren in Python

Laten we oefenen!

Enquètegegevens analyseren in Python

Preparing Video For Download...