Uji chi-kuadrat

Menganalisis Data Survei di Python

EbunOluwa Andrew

Data Scientist

Uji chi-kuadrat

  • Inferensi tentang distribusi variabel kategorikal
    • Bandingkan observasi aktual vs ekspektasi

Foto dadu oleh Edge2Edge Media di Unsplash

Menganalisis Data Survei di Python

Uji chi-kuadrat dalam analisis survei

  • Tentukan hubungan antara dua variabel kategorikal pada populasi
  • $H_{o}$ = tidak ada hubungan antarvariabel
  • $H_{a}$ = ada hubungan antarvariabel
  • P-value
    • jika signifikan (<0,05), tolak hipotesis nol
    • jika tidak signifikan (>0,05), terima hipotesis nol
Menganalisis Data Survei di Python

Mengapa pakai uji chi-kuadrat dalam analisis survei

  • Masukkan variabel yang relevan dengan variabel keluaran

  • Pahami dampak berbagai variabel pada populasi

  • Cek apakah perbedaan karena kebetulan atau signifikan secara statistik

Foto hasil survei oleh Firmbee.com di Unsplash

1 Foto oleh Firmbee.com di Unsplash
Menganalisis Data Survei di Python

Asumsi uji chi-kuadrat pada analisis survei

  • Kedua variabel = kategorikal
  • Sampel dipilih acak dari populasi
  • Ukuran sampel > 100
  • Frekuensi harapan >=5
Menganalisis Data Survei di Python

Data survei untuk analisis chi-kuadrat

pet_type current_pets time_spent reduces_stress
dog 1 420 yes
dog 1 180 yes
dog 4 30 yes
dog 1 30 yes
dog 1 60 yes
Menganalisis Data Survei di Python

Data survei untuk analisis chi-kuadrat

  • Ukuran sampel >100
  • Dua variabel kategorikal:
    • pet_type
    • reduces_stress
  • $$H_{o} $$ TIDAK ada hubungan antara jenis hewan peliharaan dan persepsi pengurangan stres
  • $$H_{a}$$ ada hubungan antara jenis hewan peliharaan dan persepsi pengurangan stres
Menganalisis Data Survei di Python

Langkah analisis chi-kuadrat pada pet_survey di Python

import pandas as pd
import scipy.stats as st
data = pd.read_csv('pet_survey.csv') 

cross_table = pd.crosstab(data.reduces_stress, data.pet_type)
chi_analysis = st.chi2_contingency(cross_table)
print(chi_analysis)
|--------------------------|
| (67.7,                   | 
| 1.9e-16,                 |
| 1,                       |
| array([[1767.0, 1825.0], |
| [2251.0, 2325.0]]))      |
Menganalisis Data Survei di Python

Hasil dan interpretasi pet_survey

  • Frekuensi >= 5

    • Hasil valid
  • p-value < 0.05

    • tolak hipotesis nol
    • pet_owned dan reduces_stress berhubungan
  • Jenis hewan peliharaan memengaruhi apakah pemilik merasa stres berkurang

hasil uji chi-kuadrat

Menganalisis Data Survei di Python

Ayo berlatih!

Menganalisis Data Survei di Python

Preparing Video For Download...