Uji chi-square independensi

Pengujian Hipotesis dengan Python

James Chapman

Curriculum Manager, DataCamp

Meninjau kembali uji proporsi

age_by_hobbyist = stack_overflow.groupby("age_cat")['hobbyist'].value_counts()
age_cat      hobbyist
At least 30  Yes          812
             No           238
Under 30     Yes         1021
             No           190
Name: hobbyist, dtype: int64
from statsmodels.stats.proportion import proportions_ztest
n_hobbyists = np.array([812, 1021])
n_rows = np.array([812 + 238, 1021 + 190])
stat, p_value = proportions_ztest(count=n_hobbyists, nobs=n_rows, 
                                  alternative="two-sided")
(-4.223691463320559, 2.403330142685068e-05)
Pengujian Hipotesis dengan Python

Independensi variabel

Hasil uji hipotesis sebelumnya: bukti bahwa hobbyist dan age_cat berasosiasi

Independensi statistik - proporsi keberhasilan pada variabel respons sama di semua kategori variabel penjelas

Pengujian Hipotesis dengan Python

Uji independensi variabel

import pingouin
expected, observed, stats = pingouin.chi2_independence(data=stack_overflow, x='hobbyist',
                                                       y='age_cat', correction=False)
print(stats)
                 test    lambda       chi2  dof      pval    cramer     power
0             pearson  1.000000  17.839570  1.0  0.000024  0.088826  0.988205
1        cressie-read  0.666667  17.818114  1.0  0.000024  0.088773  0.988126
2      log-likelihood  0.000000  17.802653  1.0  0.000025  0.088734  0.988069
3       freeman-tukey -0.500000  17.815060  1.0  0.000024  0.088765  0.988115
4  mod-log-likelihood -1.000000  17.848099  1.0  0.000024  0.088848  0.988236
5              neyman -2.000000  17.976656  1.0  0.000022  0.089167  0.988694

Statistik $\chi^2$ = 17.839570 = $(-4.223691463320559)^2$ = ($z$-score)$^2$

Pengujian Hipotesis dengan Python

Kepuasan kerja dan kategori usia

stack_overflow['age_cat'].value_counts()
Under 30       1211
At least 30    1050
Name: age_cat, dtype: int64
stack_overflow['job_sat'].value_counts()
Very satisfied           879
Slightly satisfied       680
Slightly dissatisfied    342
Neither                  201
Very dissatisfied        159
Name: job_sat, dtype: int64
Pengujian Hipotesis dengan Python

Menyatakan hipotesis

$H_{0}$: Kategori usia independen dari tingkat kepuasan kerja

$H_{A}$: Kategori usia tidak independen dari tingkat kepuasan kerja

alpha = 0.1
  • Statistik uji dilambangkan $\chi^{2}$
  • Dengan asumsi independen, seberapa jauh hasil teramati dari nilai harapan?
Pengujian Hipotesis dengan Python

Visualisasi eksploratori: stacked bar proporsional

props = stack_overflow.groupby('job_sat')['age_cat'].value_counts(normalize=True)

wide_props = props.unstack()
wide_props.plot(kind="bar", stacked=True)
Pengujian Hipotesis dengan Python

Visualisasi eksploratori: stacked bar proporsional

Diagram batang bertumpuk proporsional kepuasan kerja diisi menurut kategori usia

Pengujian Hipotesis dengan Python

Uji independensi chi-square

import pingouin
expected, observed, stats = pingouin.chi2_independence(data=stack_overflow, x="job_sat", y="age_cat")
print(stats)    
                 test    lambda      chi2  dof      pval    cramer     power
0             pearson  1.000000  5.552373  4.0  0.235164  0.049555  0.437417
1        cressie-read  0.666667  5.554106  4.0  0.235014  0.049563  0.437545
2      log-likelihood  0.000000  5.558529  4.0  0.234632  0.049583  0.437871
3       freeman-tukey -0.500000  5.562688  4.0  0.234274  0.049601  0.438178
4  mod-log-likelihood -1.000000  5.567570  4.0  0.233854  0.049623  0.438538
5              neyman -2.000000  5.579519  4.0  0.232828  0.049676  0.439419

Derajat kebebasan:

$(\text{Jumlah kategori respons} - 1) \times (\text{Jumlah kategori penjelas} - 1)$

$(2 - 1) * (5 - 1) = 4$

Pengujian Hipotesis dengan Python

Menukar variabel?

props = stack_overflow.groupby('age_cat')['job_sat'].value_counts(normalize=True)
wide_props = props.unstack()
wide_props.plot(kind="bar", stacked=True)
Pengujian Hipotesis dengan Python

Menukar variabel?

Diagram batang bertumpuk proporsional kategori usia diisi menurut kepuasan kerja

Pengujian Hipotesis dengan Python

chi-square dua arah

expected, observed, stats = pingouin.chi2_independence(data=stack_overflow, x="age_cat", y="job_sat")
print(stats[stats['test'] == 'pearson'])   
      test  lambda      chi2  dof      pval    cramer     power
0  pearson     1.0  5.552373  4.0  0.235164  0.049555  0.437417

Tanyakan: Apakah variabel X dan Y independen?

Bukan: Apakah variabel X independen dari variabel Y?

Pengujian Hipotesis dengan Python

Bagaimana dengan arah dan tail?

  • Kuadrat dari frekuensi teramati dan harapan harus tidak negatif
  • Uji chi-square hampir selalu bertail kanan $^{1}$
1 Uji chi-square sisi kiri digunakan dalam forensik statistik untuk mendeteksi kecocokan yang terlalu baik karena data direkayasa. Uji chi-square varians bisa dua sisi. Namun, ini penggunaan khusus.
Pengujian Hipotesis dengan Python

Ayo berlatih!

Pengujian Hipotesis dengan Python

Preparing Video For Download...