Statistische modelleertechnieken

Enquètegegevens analyseren in Python

EbunOluwa Andrew

Data Scientist

Waarom statistische modelleertechnieken bij surveys?

  • Voorspel op basis van verbanden tussen variabelen
  • Maakt visualisatie mogelijk
    • Inzichten blijven hangen

Foto van Chris Liverani op Unsplash - man met zwarte smartphone voor zwart scherm

1 Foto van Chris Liverani op Unsplash
Enquètegegevens analyseren in Python

Wanneer statistische modelleertechnieken gebruiken

  • Moeilijke data
  • Invloed tussen variabelen
  • Uitkomst voorspellen

Foto van Tyler Easton op Unsplash - allerlei cijfers op een muur

1 Foto van Tyler Easton op Unsplash
Enquètegegevens analyseren in Python

Voorbeelden van statistische modelleertechnieken

  • Lineaire regressie
  • T-toets voor twee steekproeven
  • Chi-kwadraattoets

Foto van Алекс Арцибашев op Unsplash - stijgende blokbalken

Enquètegegevens analyseren in Python

Lineair regressiemodel

  • Lineair regressiemodel
    • Veronderstelt een lineair verband tussen x en y
    • y = m*x + b
    • y = afhankelijke variabele
    • x = onafhankelijke variabele
    • m = helling
    • b = snijpunt met y-as

Foto van Seeing Theory-Brown.edu - best fit-lijn door punten

1 Foto van Seeing Theory-Brown.edu
Enquètegegevens analyseren in Python

Lineaire regressie in surveyanalyse

employee gender company_type wfh_available mental_fatigue_score burn_rate
fff200 Male Service No 3 0.24
fff500 Female Service Yes 5.7 0.45
fff700 Female Service Yes 5.8 0.49
fff300 Female Service Yes 6.7 0.63
fff100 Female Product Yes 4.7 0.38
fff400 Male Service Yes 3.4 0.28
fff600 Female Product Yes 5.4 0.5
fffe3400 Female Product No 6.7 0.58
fffe200 Male Service Yes 6.3 0.48
fffe3000 Male Service Yes 5.4 0.41
Enquètegegevens analyseren in Python

Lineaire regressie in surveyanalyse

data.plot.scatter(
x='mental_fatigue_score',
y='burn_rate')
plt.show()

burn_rate vs. mental_fatigue_score

Enquètegegevens analyseren in Python

T-toets voor twee steekproeven

  • Test op significant verschil tussen twee populatiegemiddelden
  • Nulhypothese = twee gemiddelden zijn gelijk
  • Alternatieve hypothese = twee gemiddelden zijn NIET gelijk

Foto van Olesia Bahrii op Unsplash - twee trossen druiven

1 Foto van Olesia Bahrii op Unsplash
Enquètegegevens analyseren in Python

T-toets voor twee steekproeven in surveyanalyse

employee gender company_type wfh_available mental_fatigue_score burn_rate
fff100 Female Product Yes 4.7 0.38
fff400 Male Service Yes 3.4 0.28
fff600 Female Product Yes 5.4 0.5
company_type burn_rate
Service 0.57
Service 0.75
Service 0.51
Service 0.57
company_type burn_rate
Product 0.51
Product 0.79
Product 0.66
Product 0.39
Enquètegegevens analyseren in Python

Chi-kwadraattoets

  • Test op statistische significantie tussen twee categorische variabelen
  • Nulhypothese = geen significante associatie
  • Alternatieve hypothese = wel significante associatie
Enquètegegevens analyseren in Python

Chi-kwadraattoets in surveyanalyse

  • Variabele #1

    • company_type
    • Product of Service
  • Variabele #2

    • wfh_available
    • Yes of No
company_type wfh_available
Product Yes
Product Yes
Product No
Service Yes
Service Yes
Product Yes
Service No
Service No
Product Yes
Service Yes
Enquètegegevens analyseren in Python

Welke techniek? - lineaire regressie

Beide variabelen = numeriek

calorieën vs. minuten scatterplot

Enquètegegevens analyseren in Python

Welke techniek? - t-toets voor twee steekproeven

  • T-toets voor twee steekproeven
    • Eén variabele = categorisch
    • Eén variabele = numeriek

Foto van Diana Polekhina op Unsplash - wit-zwarte meetlint op geel oppervlak

1 Foto van Diana Polekhina op Unsplash
Enquètegegevens analyseren in Python

Welke techniek? - chi-kwadraattoets

  • Chi-kwadraattoets
    • Beide variabelen = categorisch

Foto van Element5 Digital op Unsplash - silhouet van stemmen

1 Foto van Element5 Digital op Unsplash
Enquètegegevens analyseren in Python

Laten we oefenen!

Enquètegegevens analyseren in Python

Preparing Video For Download...