Yaklaşım kestirmesi

R ile Kategorik Verilerde Çıkarım

Andrew Bray

Assistant Professor of Statistics at Reed College

Güven aralıkları

SE
0.009998905
SE_small_n
0.03809731
SE_low_p
0.00547912

Standart hatalar şu durumlarda artar

  • n küçükse
  • p 0.5’e yakınsa
R ile Kategorik Verilerde Çıkarım

bootstrap_one.png

R ile Kategorik Verilerde Çıkarım

bootstrap_two.png

R ile Kategorik Verilerde Çıkarım

Normal dağılım

Diğer adıyla “çan eğrisi”.

Eğer

  • gözlemler bağımsızsa
  • n büyükse

O hâlde

  • $\hat{p}$ normal dağılır

ch1v3-normal-curve.png

R ile Kategorik Verilerde Çıkarım

Standart sapma

$$\sqrt{\frac{ \hat{p} \times (1 - \hat{p})}{n}}$$

R ile Kategorik Verilerde Çıkarım

Model varsayımlarını değerlendirme

“Gözlemler bağımsız” nasıl kontrol edilir?

  • Veri toplama yöntemine bağlıdır.

“n büyük” ne demek?

  • $n \times \hat{p} \gt 10$
  • $n \times(1 - \hat{p}) \gt 10$
R ile Kategorik Verilerde Çıkarım

Standart hata hesaplama: yaklaşım

p_hat <- gss2016 %>%
  summarize(mean(happy == "HAPPY")) %>%
  pull()
n <- nrow(gss2016)
c(n * p_hat, n * (1 - p_hat))
116  35
SE_approx <- sqrt(p_hat * (1 - p_hat) / n)
SE_approx
0.03418468
R ile Kategorik Verilerde Çıkarım

Standart hata hesaplama: hesaplama

boot <- gss2016 %>%
  specify(response = happy, success = "HAPPY") %>%
  generate(reps = 500, type = "bootstrap") %>%
  calculate(stat = "prop")
SE_boot <- boot %>%
  summarize(sd(stat)) %>%
  pull()
SE_boot
0.03176741
R ile Kategorik Verilerde Çıkarım

Örnekleme dağılımları

ggplot(boot, aes(x = stat)) +
  geom_density()

ch1v3-density-curve-1.png

R ile Kategorik Verilerde Çıkarım

Örnekleme dağılımları

ggplot(boot, aes(x = stat)) +
  geom_density() +
  stat_function(fun = dnorm, 
                color = "purple",
                args = 
                  list(mean = p_hat,
                       sd = SE_approx))

ch1v3-density-curve-1.png

R ile Kategorik Verilerde Çıkarım

Örnekleme dağılımları

ggplot(boot, aes(x = stat)) +
  geom_density() +
  stat_function(fun = dnorm, 
                color = "purple",
                args = 
                  list(mean = p_hat,
                       sd = SE_approx))

ch1v3-density-curve-2.png

R ile Kategorik Verilerde Çıkarım

Ayo berlatih!

R ile Kategorik Verilerde Çıkarım

Preparing Video For Download...