Test chi-quadrato

Analisi dei dati da sondaggio in Python

EbunOluwa Andrew

Data Scientist

Test chi-quadrato

  • Inferenze sulla distribuzione di variabili categoriche
    • Confronta osservazioni osservate vs attese

Foto di dadi di Edge2Edge Media su Unsplash

Analisi dei dati da sondaggio in Python

Test chi-quadrato nell’analisi dei sondaggi

  • Determina la relazione tra due variabili categoriche in una popolazione
  • $H_{o}$ = nessuna relazione tra variabili
  • $H_{a}$ = relazione tra variabili
  • P-value
    • se significativo (<0,05), rifiuta H0
    • se non significativo (>0,05), accetta H0
Analisi dei dati da sondaggio in Python

Perché usare il chi-quadrato nell’analisi dei sondaggi

  • Inserisci variabili rilevanti per la variabile di output

  • Capisci l’impatto delle diverse variabili sulla popolazione

  • Verifica se le differenze sono casuali o statisticamente significative

Risultati del sondaggio, foto di Firmbee.com su Unsplash

1 Foto di Firmbee.com su Unsplash
Analisi dei dati da sondaggio in Python

Assunzioni del test chi-quadrato nell’analisi dei sondaggi

  • Entrambe le variabili sono categoriche
  • Campione selezionato casualmente dalla popolazione
  • Dimensione campione > 100
  • Frequenze attese >= 5
Analisi dei dati da sondaggio in Python

Dati del sondaggio per l’analisi chi-quadrato

pet_type current_pets time_spent reduces_stress
dog 1 420 yes
dog 1 180 yes
dog 4 30 yes
dog 1 30 yes
dog 1 60 yes
Analisi dei dati da sondaggio in Python

Dati del sondaggio per l’analisi chi-quadrato

  • Campione > 100
  • Due variabili categoriche:
    • pet_type
    • reduces_stress
  • $$H_{o} $$ NESSUNA relazione tra tipo di animale posseduto e percezione di riduzione dello stress
  • $$H_{a}$$ relazione tra tipo di animale posseduto e percezione di riduzione dello stress
Analisi dei dati da sondaggio in Python

Passi dell’analisi chi-quadrato su pet_survey in Python

import pandas as pd
import scipy.stats as st
data = pd.read_csv('pet_survey.csv') 

cross_table = pd.crosstab(data.reduces_stress, data.pet_type)
chi_analysis = st.chi2_contingency(cross_table)
print(chi_analysis)
|--------------------------|
| (67.7,                   | 
| 1.9e-16,                 |
| 1,                       |
| array([[1767.0, 1825.0], |
| [2251.0, 2325.0]]))      |
Analisi dei dati da sondaggio in Python

Risultato e interpretazione di pet_survey

  • Frequenze >= 5

    • Risultati validi
  • p-value < 0,05

    • rifiuta l’ipotesi nulla
    • pet_owned e reduces_stress sono correlati
  • Il tipo di animale posseduto incide sulla percezione di riduzione dello stress

risultati del test chi-quadrato

Analisi dei dati da sondaggio in Python

Passons à la pratique !

Analisi dei dati da sondaggio in Python

Preparing Video For Download...