Tek örnek oran testleri

R ile Hipotez Testi

Richie Cotton

Data Evangelist at DataCamp

Bölüm 1 özeti

  • Bilinmeyen bir anakütle oranına dair iddia makul mü?
  • Örnek istatistiğinin standart hatası, bootstrap dağılımıyla hesaplandı.
  • Bu, standartlaştırılmış bir test istatistiğini bulmak için kullanıldı...
  • bu da bir p-değeri hesaplamak için kullanıldı...
  • bu da hangi hipotezin daha mantıklı olduğuna karar vermek için kullanıldı.
  • Burada, test istatistiğini bootstrap kullanmadan hesaplayacağız.
R ile Hipotez Testi

Oranlar için standartlaştırılmış test istatistiği

$p$: anakütle oranı (bilinmeyen anakütle parametresi)

$\hat{p}$: örneklem oranı (örnek istatistiği)

$p_{0}$: varsayılan anakütle oranı

$$ z = \frac{\hat{p} - \text{mean}(\hat{p})}{\text{standard error}(\hat{p})} = \frac{\hat{p} - p}{\text{standard error}(\hat{p})} $$

$H_{0}$ doğruysa, $p = p_{0}$, dolayısıyla

$$ z = \dfrac{\hat{p} - p_{0}}{\text{standard error}(\hat{p})} $$

R ile Hipotez Testi

Daha kolay standart hata hesapları

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

$SE_{\hat{p}} = \sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}$

$H_{0}$ doğru varsayılırsa,

$z = \dfrac{\hat{p} - p_{0}}{\sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}}$

Bu yalnızca örnek bilgilerini ($\hat{p}$ ve $n$) ve varsayılan parametreyi ($p_{0}$) kullanır.

R ile Hipotez Testi

Neden z, t değil?

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$

  • $s$, $\bar{x}$'ten hesaplanır; bu yüzden $\bar{x}$ hem anakütle ortalamasını hem de anakütle standart sapmasını tahmin etmek için kullanılır.
  • Bu, anakütle parametresi tahminindeki belirsizliği artırır.
  • t-dağılımının kuyrukları normal dağılımdan daha kalındır.
  • Bu, ek bir temkin sağlar.
  • $\hat{p}$ yalnızca payda değil, yalnızca payda? yalnızca pay kısmında yer alır; bu yüzden z-skorları uygundur.
R ile Hipotez Testi

Stack Overflow yaş kategorileri

$H_{0}$: Otuz yaş altı SO kullanıcı oranı 0.5'e eşittir.

$H_{A}$: Otuz yaş altı SO kullanıcı oranı 0.5'e eşit değildir.

alpha <- 0.01
stack_overflow %>% 
  count(age_cat)
# A tibble: 2 x 2
  age_cat         n
  <chr>       <int>
1 At least 30  1050
2 Under 30     1216
R ile Hipotez Testi

z için değişkenler

p_hat <- stack_overflow %>%
  summarize(prop_under_30 = mean(age_cat == "Under 30")) %>%
  pull(prop_under_30)
0.5366
p_0 <- 0.50
n <- nrow(stack_overflow)
2266
R ile Hipotez Testi

z-skorunun hesaplanması

$z = \dfrac{\hat{p} - p_{0}}{\sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}}$

numerator <- p_hat - p_0
denominator <- sqrt(p_0 * (1 - p_0) / n)
z_score <- numerator / denominator
3.487
R ile Hipotez Testi

p-değerinin hesaplanması

Normal dağılımın KDA'sı. -2'den küçük kısım kırmızı, 2'den büyük kısım yeşil. Sol kuyruk ("küçüktür")

p_value <- pnorm(z_score) 

Sağ kuyruk ("büyüktür")

p_value <- pnorm(z_score, lower.tail = FALSE)

Çift kuyruk ("eşit değil")

p_value <- pnorm(z_score) + 
  pnorm(z_score, lower.tail = FALSE)
p_value <- 2 * pnorm(z_score)
0.000244
p_value <= alpha
TRUE
R ile Hipotez Testi

Hadi pratik yapalım!

R ile Hipotez Testi

Preparing Video For Download...