Jalur pintas pendekatan

Inferensi untuk Data Kategorik di R

Andrew Bray

Assistant Professor of Statistics at Reed College

Interval kepercayaan

SE

0.009998905

SE_small_n

0.03809731

SE_low_p

0.00547912

Galat baku naik ketika

n kecil
p mendekati 0,5

Diagram pendekatan 1

Diagram pendekatan 2

Distribusi normal

Alias "kurva lonceng".

Jika

observasi independen
n besar

Maka

$\hat{p}$ berdistribusi normal

Kurva normal

Simpangan baku

$$\sqrt{\frac{ \hat{p} \times (1 - \hat{p})}{n}}$$

Menilai asumsi model

Bagaimana memeriksa "observasi saling independen"?

Tergantung metode pengumpulan data.

Apa arti "n besar"?

$n \times \hat{p} \gt 10$
$n \times(1 - \hat{p}) \gt 10$

Menghitung galat baku: pendekatan

p_hat <- gss2016 %>%
  summarize(mean(happy == "HAPPY")) %>%
  pull()
n <- nrow(gss2016)

c(n * p_hat, n * (1 - p_hat))

116  35

SE_approx <- sqrt(p_hat * (1 - p_hat) / n)
SE_approx

0.03418468

Menghitung galat baku: komputasi

boot <- gss2016 %>%
  specify(response = happy, success = "HAPPY") %>%
  generate(reps = 500, type = "bootstrap") %>%
  calculate(stat = "prop")
SE_boot <- boot %>%
  summarize(sd(stat)) %>%
  pull()
SE_boot

0.03176741

Distribusi sampling

ggplot(boot, aes(x = stat)) +
  geom_density()

Kurva kerapatan

Distribusi sampling

ggplot(boot, aes(x = stat)) +
  geom_density() +
  stat_function(fun = dnorm, 
                color = "purple",
                args = 
                  list(mean = p_hat,
                       sd = SE_approx))

Kurva kerapatan

Distribusi sampling

ggplot(boot, aes(x = stat)) +
  geom_density() +
  stat_function(fun = dnorm, 
                color = "purple",
                args = 
                  list(mean = p_hat,
                       sd = SE_approx))

Kurva kerapatan

Ayo berlatih!

Inferensi untuk Data Kategorik di R