Clustersampling

Enquètegegevens analyseren in Python

EbunOluwa Andrew

Data Scientist

Wat is clustersampling?

  • Hele populatie verdeeld in meerdere subgroepen

    • Subgroepen lijken qua kenmerken op de populatie
  • Populatie -> Clusters

  • Je bemonstert geen individuen, maar selecteert willekeurig de hele subgroep

taartdiagram van mensen

Enquètegegevens analyseren in Python

Waarom clustersampling belangrijk is

  • We kunnen niet altijd data verzamelen van de hele populatie
  • Beperk fout door de grote omvang van de populatie

overbevolking

Enquètegegevens analyseren in Python

Stappen bij clustersampling

  • Deel eerst de populatie op in clusters
  • Kies daarna willekeurig uit deze clusters

cluster van mensen

Enquètegegevens analyseren in Python

Voorbeelddataset

print(mh_survey)
| gender | sought_treatment | country_work             |
|--------|------------------|--------------------------|
| Male   |                0 | United Kingdom           |
| Male   |                1 | United States of America |
| Male   |                1 | United Kingdom           |
| Male   |                1 | United Kingdom           |
| Female |                1 | United States of America |
| Male   |                1 | United Kingdom           |
| Male   |                0 | United States of America |
...
Enquètegegevens analyseren in Python

Voorbeelddata en plot

mh_survey.groupby('country_work')[
  'gender'].count()
groups = mh_survey.groupby(
  'country_work')['gender'].count(
).reset_index()
groups.columns=['country_work','count']

groups.plot.bar(x='country_work',
                y='count')

staafdiagram van waar techwerkers wonen

1 _gedeeltelijke data geplot wegens ruimte_
Enquètegegevens analyseren in Python

Kies clusters

unique_countries = list(set(mh_survey.country_work))

random_clusters = np.random.choice(unique_countries, size = 10, replace = False)

print(random_clusters)
array(['Finland', 'Australia', 'Sweden', 'South Africa', 'Pakistan',
       'France', 'Ecuador', 'United Arab Emirates', 'United Kingdom',
       'Bangladesh'], dtype='<U24')
Enquètegegevens analyseren in Python

Maak een clustersteekproef

cluster_sample = mh_survey[mh_survey.country_work.isin(random_clusters)]
print(cluster_sample.head())
| gender | sought_treatment | US_state_live        |
|--------|------------------|----------------------|
| Male   |                1 |             Pakistan |
| Male   |                1 |             Pakistan |
| Male   |                1 | United Arab Emirates |
| Male   |                1 |             Pakistan |
| Female |                0 |           Bangladesh |
Enquètegegevens analyseren in Python

Plot clustersteekproef

treatment_pie = cluster_sample.sought_treatment.value_counts(normalize = True)
treatment_pie.plot.pie()

taartdiagram van sought_treatment

Enquètegegevens analyseren in Python

Plot clustersteekproef

array(['Bangladesh', 'South Africa', 'Other', 'Norway', 'Poland',
       'Romania', 'New Zealand', 'France', 'United States of America',
       'Bulgaria'], dtype='<U24')

taartdiagram van sought_treatment

Enquètegegevens analyseren in Python

Laten we oefenen!

Enquètegegevens analyseren in Python

Preparing Video For Download...