Ki-kare bağımsızlık testi

R ile Hipotez Testi

Richie Cotton

Data Evangelist at DataCamp

Oran testine dönüş

library(infer)
stack_overflow %>% 
  prop_test(
    hobbyist ~ age_cat,
    order = c("At least 30", "Under 30"),
    alternative = "two-sided",
    correct = FALSE
  )
# A tibble: 1 x 6
  statistic chisq_df   p_value alternative lower_ci upper_ci
      <dbl>    <dbl>     <dbl> <chr>          <dbl>    <dbl>
1      17.8        1 0.0000248 two.sided     0.0605    0.165
R ile Hipotez Testi

Değişkenlerin bağımsızlığı

Önceki hipotez testi sonucu: hobbyist ve age_cat değişkenlerinin ilişkili olduğuna dair kanıt var.

Eğer tepki değişkenindeki başarı oranı açıklayıcı değişkenin tüm kategorilerinde aynıysa, iki değişken istatistiksel olarak bağımsızdır.

1 Tepki ve açıklayıcı değişkenler "R ile Regresyona Giriş", Bölüm 1'de tanımlanmıştır.
R ile Hipotez Testi

İş doyumu ve yaş kategorisi

stack_overflow %>% 
  count(age_cat)
# A tibble: 2 x 2
  age_cat         n
  <chr>       <int>
1 At least 30  1050
2 Under 30     1211
stack_overflow %>% 
  count(job_sat)
# A tibble: 5 x 2
  job_sat                   n
  <fct>                 <int>
1 Very dissatisfied       159
2 Slightly dissatisfied   342
3 Neither                 201
4 Slightly satisfied      680
5 Very satisfied          879
R ile Hipotez Testi

Hipotezleri kurma

$H_{0}$: Yaş kategorileri ile iş doyumu düzeyleri bağımsızdır.

$H_{A}$: Yaş kategorileri ile iş doyumu düzeyleri bağımsız değildir.

alpha <- 0.1
  • Test istatistiği $\chi^{2}$ ile gösterilir.
  • Bağımsızlık varsayımı altında, gözlenen sonuçlar beklenen değerlere ne kadar uzaktır?
R ile Hipotez Testi

Keşifsel görselleştirme: oransal yığılmış çubuk grafik

ggplot(stack_overflow, aes(job_sat, fill = age_cat)) +
  geom_bar(position = "fill") +
  ylab("proportion")

Yaş kategorisine göre doldurulmuş iş doyumu oransal yığılmış çubuk grafiği

R ile Hipotez Testi

chisq_test() ile ki-kare bağımsızlık testi

library(infer)
stack_overflow %>% 
  chisq_test(age_cat ~ job_sat)
# A tibble: 1 x 3
  statistic chisq_df p_value
      <dbl>    <int>   <dbl>
1      5.55        4   0.235

Serbestlik derecesi:

$(\text{Tepki kategori sayısı} - 1) \times (\text{Açıklayıcı kategori sayısı} - 1)$

$(2 - 1) * (5 - 1) = 4$

R ile Hipotez Testi

Değişkenleri yer değiştirmek?

ggplot(stack_overflow, aes(age_cat, fill = job_sat)) +
  geom_bar(position = "fill") +
  ylab("proportion")

İş doyumuna göre doldurulmuş yaş kategorisi oransal yığılmış çubuk grafiği

R ile Hipotez Testi

Ki-kare her iki yönde de

library(infer)
stack_overflow %>% 
  chisq_test(age_cat ~ job_sat)
# A tibble: 1 x 3
  statistic chisq_df p_value
      <dbl>    <int>   <dbl>
1      5.55        4   0.235

Şunu sorun

X ve Y değişkenleri bağımsız mı?

library(infer)
stack_overflow %>% 
  chisq_test(job_sat ~ age_cat)
# A tibble: 1 x 3
  statistic chisq_df p_value
      <dbl>    <int>   <dbl>
1      5.55        4   0.235

Değil

X değişkeni Y değişkeninden bağımsız mı?

R ile Hipotez Testi

Yön ve kuyruklar?

args(chisq_test)
function (x, formula, response = NULL, explanatory = NULL, ...)
  • Gözlenen ve beklenen sayımların kareleri negatif olamaz.
  • Ki-kare testleri neredeyse her zaman sağ kuyrukludur. $^{1}$
1 Sol kuyruklu ki-kare testleri, istatistiksel adli incelemelerde, uydurma veriler nedeniyle uyumun şüpheli derecede iyi olup olmadığını tespit etmek için kullanılır. Varyans için ki-kare testleri iki kuyruklu olabilir. Ancak bunlar niş kullanımlardır.
R ile Hipotez Testi

Hadi pratik yapalım!

R ile Hipotez Testi

Preparing Video For Download...