Melakukan uji t

Pengujian Hipotesis di R

Richie Cotton

Data Evangelist at DataCamp

Masalah dua sampel

  • Masalah lain adalah membandingkan statistik sampel antar kelompok suatu variabel.
  • converted_comp adalah variabel numerik.
  • age_first_code_cut adalah variabel kategorik dengan level ("child" dan "adult").
  • Apakah pengguna yang mulai ngoding saat kecil cenderung mendapat kompensasi lebih tinggi dibanding yang mulai saat dewasa?
Pengujian Hipotesis di R

Hipotesis

$H_{0}$: Rata-rata kompensasi (USD) sama untuk yang pertama kali ngoding saat kecil dan saat dewasa.

$H_{0}$: $\mu_{child} = \mu_{adult}$

$H_{0}$: $\mu_{child} - \mu_{adult} = 0$

$H_{A}$: Rata-rata kompensasi (USD) lebih besar untuk yang pertama kali ngoding saat kecil dibanding yang mulai saat dewasa.

$H_{A}$: $\mu_{child} > \mu_{adult}$

$H_{A}$: $\mu_{child} - \mu_{adult} > 0$

Pengujian Hipotesis di R

Menghitung ringkasan per kelompok

stack_overflow %>% 
  group_by(age_first_code_cut) %>% 
  summarize(mean_compensation = mean(converted_comp))
# A tibble: 2 x 2
  age_first_code_cut mean_compensation
  <chr>                          <dbl>
1 adult                        111544.
2 child                        138275.
Pengujian Hipotesis di R

Statistik uji

  • Rata-rata sampel mengestimasi rata-rata populasi.
  • $\bar{x}$ menyatakan rata-rata sampel.
  • $\bar{x}_{child}$ adalah rata-rata kompensasi sampel untuk yang mulai saat kecil.
  • $\bar{x}_{adult}$ adalah rata-rata kompensasi sampel untuk yang mulai saat dewasa.
  • $\bar{x}_{child} - \bar{x}_{adult}$ adalah suatu statistik uji.
  • Skor z adalah salah satu jenis statistik uji (terstandarisasi).
Pengujian Hipotesis di R

Menstandarisasi statistik uji

$z = \dfrac{\text{stat sampel} - \text{parameter populasi}}{\text{galat baku}}$

$t = \dfrac{\text{selisih stat sampel} - \text{selisih parameter populasi}}{\text{galat baku}}$

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) - (\mu_{\text{child}} - \mu_{\text{adult}})}{SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}$

Pengujian Hipotesis di R

Galat baku

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

$s$ adalah simpangan baku variabel.

$n$ adalah ukuran sampel (jumlah observasi/baris dalam sampel).

Pengujian Hipotesis di R

Dengan asumsi hipotesis nol benar

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) - (\mu_{\text{child}} - \mu_{\text{adult}})}{SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}$

$H_{0}$: $\mu_{\text{child}} - \mu_{\text{adult}} = 0$

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) }{SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}$

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$

stack_overflow %>%
  group_by(age_first_code_cut) %>%
  summarize(
    xbar = mean(converted_comp),
    s = sd(converted_comp),
    n = n()
  )
# A tibble: 2 x 4
  age_first_code_cut    xbar       s     n
  <chr>                <dbl>   <dbl> <int>
1 adult              111544. 270381.  1579
2 child              138275. 278130.  1001
Pengujian Hipotesis di R

Menghitung statistik uji

# A tibble: 2 x 4
  age_first_code_cut    xbar       s     n
  <chr>                <dbl>   <dbl> <int>
1 adult              111544. 270381.  1579
2 child              138275. 278130.  1001

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$

numerator <- xbar_child - xbar_adult
denominator <- sqrt(
  s_child ^ 2 / n_child + s_adult ^ 2 / n_adult
)
t_stat <- numerator / denominator
2.4046
Pengujian Hipotesis di R

Ayo berlatih!

Pengujian Hipotesis di R

Preparing Video For Download...