Uji chi-kuadrat untuk kemandirian

Pengujian Hipotesis di R

Richie Cotton

Data Evangelist at DataCamp

Mengulas kembali uji proporsi

library(infer)
stack_overflow %>% 
  prop_test(
    hobbyist ~ age_cat,
    order = c("At least 30", "Under 30"),
    alternative = "two-sided",
    correct = FALSE
  )
# A tibble: 1 x 6
  statistic chisq_df   p_value alternative lower_ci upper_ci
      <dbl>    <dbl>     <dbl> <chr>          <dbl>    <dbl>
1      17.8        1 0.0000248 two.sided     0.0605    0.165
Pengujian Hipotesis di R

Kemandirian variabel

Hasil uji hipotesis sebelumnya: ada bukti bahwa variabel hobbyist dan age_cat saling berasosiasi.

Jika proporsi keberhasilan pada variabel respons sama di semua kategori variabel penjelas, kedua variabel independen secara statistik.

1 Variabel respons dan penjelas didefinisikan di "Introduction to Regression in R", Bab 1.
Pengujian Hipotesis di R

Kepuasan kerja dan kategori usia

stack_overflow %>% 
  count(age_cat)
# A tibble: 2 x 2
  age_cat         n
  <chr>       <int>
1 At least 30  1050
2 Under 30     1211
stack_overflow %>% 
  count(job_sat)
# A tibble: 5 x 2
  job_sat                   n
  <fct>                 <int>
1 Very dissatisfied       159
2 Slightly dissatisfied   342
3 Neither                 201
4 Slightly satisfied      680
5 Very satisfied          879
Pengujian Hipotesis di R

Menetapkan hipotesis

$H_{0}$: Kategori usia independen dari tingkat kepuasan kerja.

$H_{A}$: Kategori usia tidak independen dari tingkat kepuasan kerja.

alpha <- 0.1
  • Statistik uji dilambangkan $\chi^{2}$.
  • Dengan asumsi independen, seberapa jauh hasil teramati dari nilai harapan?
Pengujian Hipotesis di R

Visualisasi eksplorasi: batang bertumpuk proporsional

ggplot(stack_overflow, aes(job_sat, fill = age_cat)) +
  geom_bar(position = "fill") +
  ylab("proportion")

Diagram batang bertumpuk proporsional kepuasan kerja diwarnai kategori usia

Pengujian Hipotesis di R

Uji kemandirian chi-kuadrat dengan chisq_test()

library(infer)
stack_overflow %>% 
  chisq_test(age_cat ~ job_sat)
# A tibble: 1 x 3
  statistic chisq_df p_value
      <dbl>    <int>   <dbl>
1      5.55        4   0.235

Derajat kebebasan:

$(\text{Jumlah kategori respons} - 1) \times (\text{Jumlah kategori penjelas} - 1)$

$(2 - 1) * (5 - 1) = 4$

Pengujian Hipotesis di R

Menukar variabel?

ggplot(stack_overflow, aes(age_cat, fill = job_sat)) +
  geom_bar(position = "fill") +
  ylab("proportion")

Diagram batang bertumpuk proporsional kategori usia diwarnai kepuasan kerja

Pengujian Hipotesis di R

chi-kuadrat dari kedua arah

library(infer)
stack_overflow %>% 
  chisq_test(age_cat ~ job_sat)
# A tibble: 1 x 3
  statistic chisq_df p_value
      <dbl>    <int>   <dbl>
1      5.55        4   0.235

Tanyakan

Apakah variabel X dan Y saling independen?

library(infer)
stack_overflow %>% 
  chisq_test(job_sat ~ age_cat)
# A tibble: 1 x 3
  statistic chisq_df p_value
      <dbl>    <int>   <dbl>
1      5.55        4   0.235

Bukan

Apakah variabel X independen dari variabel Y?

Pengujian Hipotesis di R

Bagaimana dengan arah dan ekor?

args(chisq_test)
function (x, formula, response = NULL, explanatory = NULL, ...)
  • Kuadrat selisih antara frekuensi teramati dan harapan harus tidak negatif.
  • Uji chi-kuadrat hampir selalu ber-ekor kanan. $^{1}$
1 Uji chi-kuadrat ekor kiri digunakan dalam forensik statistik untuk mendeteksi kecocokan yang terlalu baik karena data dipalsukan. Uji chi-kuadrat varians bisa dua ekor. Namun ini penggunaan yang khusus.
Pengujian Hipotesis di R

Ayo berlatih!

Pengujian Hipotesis di R

Preparing Video For Download...