R ile Hipotez Testi
Richie Cotton
Data Evangelist at DataCamp
$p$: anakütle oranı (bilinmeyen anakütle parametresi)
$\hat{p}$: örneklem oranı (örnek istatistiği)
$p_{0}$: varsayılan anakütle oranı
$$ z = \frac{\hat{p} - \text{mean}(\hat{p})}{\text{standard error}(\hat{p})} = \frac{\hat{p} - p}{\text{standard error}(\hat{p})} $$
$H_{0}$ doğruysa, $p = p_{0}$, dolayısıyla
$$ z = \dfrac{\hat{p} - p_{0}}{\text{standard error}(\hat{p})} $$
$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$
$SE_{\hat{p}} = \sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}$
$H_{0}$ doğru varsayılırsa,
$z = \dfrac{\hat{p} - p_{0}}{\sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}}$
Bu yalnızca örnek bilgilerini ($\hat{p}$ ve $n$) ve varsayılan parametreyi ($p_{0}$) kullanır.
$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$
$H_{0}$: Otuz yaş altı SO kullanıcı oranı 0.5'e eşittir.
$H_{A}$: Otuz yaş altı SO kullanıcı oranı 0.5'e eşit değildir.
alpha <- 0.01
stack_overflow %>%
count(age_cat)
# A tibble: 2 x 2
age_cat n
<chr> <int>
1 At least 30 1050
2 Under 30 1216
p_hat <- stack_overflow %>%
summarize(prop_under_30 = mean(age_cat == "Under 30")) %>%
pull(prop_under_30)
0.5366
p_0 <- 0.50
n <- nrow(stack_overflow)
2266
$z = \dfrac{\hat{p} - p_{0}}{\sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}}$
numerator <- p_hat - p_0
denominator <- sqrt(p_0 * (1 - p_0) / n)
z_score <- numerator / denominator
3.487
Sol kuyruk ("küçüktür")
p_value <- pnorm(z_score)
Sağ kuyruk ("büyüktür")
p_value <- pnorm(z_score, lower.tail = FALSE)
Çift kuyruk ("eşit değil")
p_value <- pnorm(z_score) +
pnorm(z_score, lower.tail = FALSE)
p_value <- 2 * pnorm(z_score)
0.000244
p_value <= alpha
TRUE
R ile Hipotez Testi