Tecniche di modellazione statistica

Analisi dei dati da sondaggio in Python

EbunOluwa Andrew

Data Scientist

Perché usare tecniche di modellazione statistica nei sondaggi?

  • Prevedi da relazioni tra variabili
  • Abilita strumenti di visualizzazione
    • Insight memorabili

Foto di Chris Liverani su Unsplash - uomo con smartphone davanti a monitor nero

1 Foto di Chris Liverani su Unsplash
Analisi dei dati da sondaggio in Python

Quando usare la modellazione statistica

  • Dati complessi
  • Influenze tra variabili
  • Prevedi l’esito

Foto di Tyler Easton su Unsplash - numeri vari stampati sul muro

1 Foto di Tyler Easton su Unsplash
Analisi dei dati da sondaggio in Python

Esempi di tecniche di modellazione statistica

  • Regressione lineare
  • t-test a due campioni
  • Test chi-quadro

Foto di Алекс Арцибашев su Unsplash - blocchi a barre crescenti

Analisi dei dati da sondaggio in Python

Modello di regressione lineare

  • Regressione lineare
    • Presuppone relazione lineare tra x e y
    • y = m*x + b
    • y = variabile dipendente
    • x = variabile indipendente
    • m = pendenza
    • b = intercetta

Foto da Seeing Theory-Brown.edu - retta di miglior adattamento tra punti

1 Foto da Seeing Theory-Brown.edu
Analisi dei dati da sondaggio in Python

Regressione lineare nell’analisi dei sondaggi

employee gender company_type wfh_available mental_fatigue_score burn_rate
fff200 Male Service No 3 0.24
fff500 Female Service Yes 5.7 0.45
fff700 Female Service Yes 5.8 0.49
fff300 Female Service Yes 6.7 0.63
fff100 Female Product Yes 4.7 0.38
fff400 Male Service Yes 3.4 0.28
fff600 Female Product Yes 5.4 0.5
fffe3400 Female Product No 6.7 0.58
fffe200 Male Service Yes 6.3 0.48
fffe3000 Male Service Yes 5.4 0.41
Analisi dei dati da sondaggio in Python

Regressione lineare nell’analisi dei sondaggi

data.plot.scatter(
x='mental_fatigue_score',
y='burn_rate')
plt.show()

burn_rate vs. mental_fatigue_score

Analisi dei dati da sondaggio in Python

t-test a due campioni

  • Verifica differenza statisticamente significativa tra due medie di popolazione
  • Ipotesi nulla = le due medie sono uguali
  • Ipotesi alternativa = le due medie NON sono uguali

Foto di Olesia Bahrii su Unsplash - due grappoli d’uva

1 Foto di Olesia Bahrii su Unsplash
Analisi dei dati da sondaggio in Python

t-test a due campioni nei sondaggi

employee gender company_type wfh_available mental_fatigue_score burn_rate
fff100 Female Product Yes 4.7 0.38
fff400 Male Service Yes 3.4 0.28
fff600 Female Product Yes 5.4 0.5
company_type burn_rate
Service 0.57
Service 0.75
Service 0.51
Service 0.57
company_type burn_rate
Product 0.51
Product 0.79
Product 0.66
Product 0.39
Analisi dei dati da sondaggio in Python

Test chi-quadro

  • Verifica associazione significativa tra due variabili categoriche
  • Ipotesi nulla = nessuna associazione significativa
  • Ipotesi alternativa = associazione significativa
Analisi dei dati da sondaggio in Python

Test chi-quadro nei sondaggi

  • Variabile n. 1

    • company_type
    • Product o Service
  • Variabile n. 2

    • wfh_available
    • Yes o No
company_type wfh_available
Product Yes
Product Yes
Product No
Service Yes
Service Yes
Product Yes
Service No
Service No
Product Yes
Service Yes
Analisi dei dati da sondaggio in Python

Quale tecnica usare? - regressione lineare

Entrambe le variabili = numeriche

scatter plot calorie vs. minuti

Analisi dei dati da sondaggio in Python

Quale tecnica usare? - t-test a due campioni

  • t-test a due campioni
    • Una variabile = categorica
    • Una variabile = numerica

Foto di Diana Polekhina su Unsplash - metro bianco e nero su superficie gialla

1 Foto di Diana Polekhina su Unsplash
Analisi dei dati da sondaggio in Python

Quale tecnica usare? - test chi-quadro

  • Test chi-quadro
    • Entrambe le variabili = categoriche

Foto di Element5 Digital su Unsplash - silhouette di voto

1 Foto di Element5 Digital su Unsplash
Analisi dei dati da sondaggio in Python

Ayo berlatih!

Analisi dei dati da sondaggio in Python

Preparing Video For Download...