Metode alternatif: distribusi chi-kuadrat

Inferensi untuk Data Kategorik di R

Andrew Bray

Assistant Professor of Statistics at Reed College

Distribusi pendekatan: normal

  • Statistik: $\hat{p}, \hat{p}_{1} - \hat{p}_{2}$

kurva normal

Inferensi untuk Data Kategorik di R

Distribusi pendekatan: chi-kuadrat

  • Statistik: $\hat{x}^{2}$
  • Bentuk ditentukan oleh derajat kebebasan
  • $df = (nrows - 1) \times (ncols - 1)$

kurva chi-kuadrat

Inferensi untuk Data Kategorik di R

Uji H via pendekatan

null_spac <- gss_party %>%
  specify(natspac ~ party) %>%
  hypothesize(null = "independence") %>%
  generate(reps = 100, type = "permute") %>%
  calculate(stat = "Chisq")
ggplot(null_spac, aes(x = stat)) +
  geom_density() +
  stat_function(
    fun = dchisq, 
    args = list(df = 4), 
    color = "blue"
  ) +
  geom_vline(xintercept = chi_obs_spac, color = "red")

uji-H via pendekatan

Inferensi untuk Data Kategorik di R

Uji H via pendekatan

gss_party %>%
  select(natarms, party) %>%
  table()
             party
natarms        D  I  R
  TOO LITTLE  17 20 24
  ABOUT RIGHT 14 28  8
  TOO MUCH    12 24  2
pchisq(chi_obs_spac, df = 4)
X-squared 
0.1430612
1 - pchisq(chi_obs_spac, df = 4)
X-squared 
0.8569388

uji-H via pendekatan

Inferensi untuk Data Kategorik di R

Distribusi chi-kuadrat

Menjadi pendekatan yang baik jika:

  • $expected\_count >= 5$
  • $df >= 2$

kurva chi-kuadrat

Inferensi untuk Data Kategorik di R

Ayo berlatih!

Inferensi untuk Data Kategorik di R

Preparing Video For Download...