Uji proporsi satu-sampel

Pengujian Hipotesis di R

Richie Cotton

Data Evangelist at DataCamp

Ringkasan Bab 1

  • Apakah klaim tentang proporsi populasi tak diketahui masuk akal?
  • Galat baku statistik sampel dihitung dari distribusi bootstrap.
  • Ini dipakai untuk menghitung statistik uji terstandar, ...
  • yang digunakan untuk menghitung p-value, ...
  • yang digunakan untuk memilih hipotesis yang paling masuk akal.
  • Di sini, kita akan menghitung statistik uji tanpa distribusi bootstrap.
Pengujian Hipotesis di R

Statistik uji terstandar untuk proporsi

$p$: proporsi populasi (parameter populasi tidak diketahui)

$\hat{p}$: proporsi sampel (statistik sampel)

$p_{0}$: proporsi populasi yang dihipotesiskan

$$ z = \frac{\hat{p} - \text{mean}(\hat{p})}{\text{standard error}(\hat{p})} = \frac{\hat{p} - p}{\text{standard error}(\hat{p})} $$

Dengan asumsi $H_{0}$ benar, $p = p_{0}$, sehingga

$$ z = \dfrac{\hat{p} - p_{0}}{\text{standard error}(\hat{p})} $$

Pengujian Hipotesis di R

Perhitungan galat baku yang lebih mudah

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

$SE_{\hat{p}} = \sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}$

Dengan asumsi $H_{0}$ benar,

$z = \dfrac{\hat{p} - p_{0}}{\sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}}$

Ini hanya memakai informasi sampel ($\hat{p}$ dan $n$) serta parameter hipotesis ($p_{0}$).

Pengujian Hipotesis di R

Mengapa z, bukan t?

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$

  • $s$ dihitung dari $\bar{x}$, jadi $\bar{x}$ dipakai untuk mengestimasi mean populasi dan simpangan baku populasi.
  • Ini menambah ketidakpastian estimasi parameter populasi.
  • Distribusi t berekor lebih tebal daripada normal.
  • Ini memberi tingkat kehati-hatian ekstra.
  • $\hat{p}$ hanya muncul di pembilang, jadi skor z memadai.
Pengujian Hipotesis di R

Kategori usia Stack Overflow

$H_{0}$: Proporsi pengguna SO di bawah 30 sama dengan 0,5.

$H_{A}$: Proporsi pengguna SO di bawah 30 tidak sama dengan 0,5.

alpha <- 0.01
stack_overflow %>% 
  count(age_cat)
# A tibble: 2 x 2
  age_cat         n
  <chr>       <int>
1 At least 30  1050
2 Under 30     1216
Pengujian Hipotesis di R

Variabel untuk z

p_hat <- stack_overflow %>%
  summarize(prop_under_30 = mean(age_cat == "Under 30")) %>%
  pull(prop_under_30)
0.5366
p_0 <- 0.50
n <- nrow(stack_overflow)
2266
Pengujian Hipotesis di R

Menghitung skor z

$z = \dfrac{\hat{p} - p_{0}}{\sqrt{\dfrac{p_{0}*(1-p_{0})}{n}}}$

numerator <- p_hat - p_0
denominator <- sqrt(p_0 * (1 - p_0) / n)
z_score <- numerator / denominator
3.487
Pengujian Hipotesis di R

Menghitung p-value

CDF distribusi normal. Bagian garis kurang dari -2 berwarna merah dan lebih dari 2 berwarna hijau. Uji kiri ("kurang dari")

p_value <- pnorm(z_score) 

Uji kanan ("lebih dari")

p_value <- pnorm(z_score, lower.tail = FALSE)

Uji dua sisi ("tidak sama dengan")

p_value <- pnorm(z_score) + 
  pnorm(z_score, lower.tail = FALSE)
p_value <- 2 * pnorm(z_score)
0.000244
p_value <= alpha
TRUE
Pengujian Hipotesis di R

Ayo berlatih!

Pengujian Hipotesis di R

Preparing Video For Download...