Campionamento pesato

Analisi dei dati da sondaggio in Python

EbunOluwa Andrew

Data Scientist

Cos’è il campionamento pesato?

  • Probabilità non uguali
  • Permette di correggere problemi emersi nella raccolta dati

Bilancia della giustizia su un tavolo, bilancia, equilibrio

Analisi dei dati da sondaggio in Python

Variabili comuni nel campionamento pesato

  • Caratteristiche demografiche come genere, età, luogo ed educazione
  • Considera differenze tra chi partecipa e chi no agli studi

Famiglia, sagome di persone di età diverse

Analisi dei dati da sondaggio in Python

Ponderazione per celle

1 https://www.geopoll.com/blog/weighting-survey-data-raking-cell-weighting/
Analisi dei dati da sondaggio in Python

Ponderazione per celle

1 https://www.geopoll.com/blog/weighting-survey-data-raking-cell-weighting/
Analisi dei dati da sondaggio in Python

Ponderazione per celle

1 https://www.geopoll.com/blog/weighting-survey-data-raking-cell-weighting/
Analisi dei dati da sondaggio in Python

Ponderazione per celle

1 https://www.geopoll.com/blog/weighting-survey-data-raking-cell-weighting/
Analisi dei dati da sondaggio in Python

Analizzare le spese dei giovani con Python

yp_survey
| Gender | Age | Entertainment |
|--------|-----|---------------|
| female |  19 | Agree         |
| female |  20 | Agree         |
| male   |  19 | Agree         |
| female |  19 | Disagree      |
| female |  24 | Disagree      |
| male   |  18 | Agree         |
| male   |  18 | Agree         |
| male   |  20 | Disagree      |
Analisi dei dati da sondaggio in Python

Analizzare le spese dei giovani con Python

import pandas as pd
yp_crosstab = pd.crosstab(
  yp_survey['Gender'],
  yp_survey['Entertainment'])
yp_crosstab
yp_crosstab.plot.barh()
|        | Agree | Disagree |
|--------|-------|----------|
| female |    81 |       84 |
| male   |    84 |       46 |

Analisi dei dati da sondaggio in Python

Analizzare le spese dei giovani con Python

survey = yp_survey.groupby(['Gender', 'Entertainment'])['Age'].count().reset_index()

survey.columns = ['Gender', 'Entertainment', 'Respondents'] survey
| Gender | Entertainment | Respondents |
|--------|---------------|-------------|
| female | Agree         |          81 |
| female | Disagree      |          84 |
| male   | Agree         |          84 |
| male   | Disagree      |          46 |
Analisi dei dati da sondaggio in Python

Analizzare le spese dei giovani con Python

survey['% total respondents'] = survey.Respondents * 100./survey.Respondents.sum()
survey['% of population'] = [35, 25, 20, 20]
survey['Weight'] = survey['% of population']/survey['% total respondents']
survey['Weighted Respondents'] = survey.Weight * survey.Respondents
Analisi dei dati da sondaggio in Python

Analizzare le spese dei giovani con Python

survey[['Gender','Entertainment',
        'Respondents','Weighted Respondents']].set_index(
  ['Gender','Entertainment']).plot.barh()

Analisi dei dati da sondaggio in Python

Ayo berlatih!

Analisi dei dati da sondaggio in Python

Preparing Video For Download...