Khi-kare bağımsızlık testi

Python'da Hipotez Testi

James Chapman

Curriculum Manager, DataCamp

Oran testine dönüş

age_by_hobbyist = stack_overflow.groupby("age_cat")['hobbyist'].value_counts()
age_cat      hobbyist
At least 30  Yes          812
             No           238
Under 30     Yes         1021
             No           190
Name: hobbyist, dtype: int64
from statsmodels.stats.proportion import proportions_ztest
n_hobbyists = np.array([812, 1021])
n_rows = np.array([812 + 238, 1021 + 190])
stat, p_value = proportions_ztest(count=n_hobbyists, nobs=n_rows, 
                                  alternative="two-sided")
(-4.223691463320559, 2.403330142685068e-05)
Python'da Hipotez Testi

Değişkenlerin bağımsızlığı

Önceki hipotez testi sonucu: hobbyist ve age_cat değişkenlerinin ilişkili olduğuna dair kanıt

İstatistiksel bağımsızlık - Tepki değişkenindeki başarı oranı, açıklayıcı değişkenin tüm kategorilerinde aynıdır

Python'da Hipotez Testi

Değişkenlerin bağımsızlığı için test

import pingouin
expected, observed, stats = pingouin.chi2_independence(data=stack_overflow, x='hobbyist',
                                                       y='age_cat', correction=False)
print(stats)
                 test    lambda       chi2  dof      pval    cramer     power
0             pearson  1.000000  17.839570  1.0  0.000024  0.088826  0.988205
1        cressie-read  0.666667  17.818114  1.0  0.000024  0.088773  0.988126
2      log-likelihood  0.000000  17.802653  1.0  0.000025  0.088734  0.988069
3       freeman-tukey -0.500000  17.815060  1.0  0.000024  0.088765  0.988115
4  mod-log-likelihood -1.000000  17.848099  1.0  0.000024  0.088848  0.988236
5              neyman -2.000000  17.976656  1.0  0.000022  0.089167  0.988694

$\chi^2$ istatistiği = 17.839570 = $(-4.223691463320559)^2$ = ($z$-skoru)$^2$

Python'da Hipotez Testi

İş doyumu ve yaş kategorisi

stack_overflow['age_cat'].value_counts()
Under 30       1211
At least 30    1050
Name: age_cat, dtype: int64
stack_overflow['job_sat'].value_counts()
Very satisfied           879
Slightly satisfied       680
Slightly dissatisfied    342
Neither                  201
Very dissatisfied        159
Name: job_sat, dtype: int64
Python'da Hipotez Testi

Hipotezleri tanımlama

$H_{0}$: Yaş kategorileri ile iş doyumu düzeyleri bağımsızdır

$H_{A}$: Yaş kategorileri ile iş doyumu düzeyleri bağımsız değildir

alpha = 0.1
  • Test istatistiği $\chi^{2}$ ile gösterilir
  • Bağımsızlık varsayımıyla, gözlenen sonuçlar beklenen değerlerden ne kadar uzakta?
Python'da Hipotez Testi

Keşif görselleştirmesi: oransal yığılmış çubuk grafiği

props = stack_overflow.groupby('job_sat')['age_cat'].value_counts(normalize=True)

wide_props = props.unstack()
wide_props.plot(kind="bar", stacked=True)
Python'da Hipotez Testi

Keşif görselleştirmesi: oransal yığılmış çubuk grafiği

Yaş kategorisine göre doldurulmuş iş doyumu için oransal yığılmış çubuk grafiği

Python'da Hipotez Testi

Khi-kare bağımsızlık testi

import pingouin
expected, observed, stats = pingouin.chi2_independence(data=stack_overflow, x="job_sat", y="age_cat")
print(stats)    
                 test    lambda      chi2  dof      pval    cramer     power
0             pearson  1.000000  5.552373  4.0  0.235164  0.049555  0.437417
1        cressie-read  0.666667  5.554106  4.0  0.235014  0.049563  0.437545
2      log-likelihood  0.000000  5.558529  4.0  0.234632  0.049583  0.437871
3       freeman-tukey -0.500000  5.562688  4.0  0.234274  0.049601  0.438178
4  mod-log-likelihood -1.000000  5.567570  4.0  0.233854  0.049623  0.438538
5              neyman -2.000000  5.579519  4.0  0.232828  0.049676  0.439419

Serbestlik derecesi:

$(\text{Tepki kategori sayısı} - 1) \times (\text{Açıklayıcı kategori sayısı} - 1)$

$(2 - 1) * (5 - 1) = 4$

Python'da Hipotez Testi

Değişkenleri değiştirmek?

props = stack_overflow.groupby('age_cat')['job_sat'].value_counts(normalize=True)
wide_props = props.unstack()
wide_props.plot(kind="bar", stacked=True)
Python'da Hipotez Testi

Değişkenleri değiştirmek?

İş doyumuna göre doldurulmuş yaş kategorisi için oransal yığılmış çubuk grafiği

Python'da Hipotez Testi

Khi-kare her iki yönde

expected, observed, stats = pingouin.chi2_independence(data=stack_overflow, x="age_cat", y="job_sat")
print(stats[stats['test'] == 'pearson'])   
      test  lambda      chi2  dof      pval    cramer     power
0  pearson     1.0  5.552373  4.0  0.235164  0.049555  0.437417

Sor: X ve Y değişkenleri bağımsız mı?

Şu değil: X değişkeni Y değişkeninden bağımsız mı?

Python'da Hipotez Testi

Yön ve kuyruklar ne olacak?

  • Gözlenen ve beklenen sayıların kareleri negatif olamaz
  • Khi-kare testleri neredeyse her zaman sağ kuyrukludur $^{1}$
1 Sola kuyruklu khi-kare testleri, uydurma veriler nedeniyle uyumun şüphe derecede iyi olup olmadığını tespit etmek için istatistiksel adli analizde kullanılır. Varyans için khi-kare testleri iki kuyruklu olabilir. Ancak bunlar niş kullanımlardır.
Python'da Hipotez Testi

Ayo berlatih!

Python'da Hipotez Testi

Preparing Video For Download...