t-testler uygulama

R ile Hipotez Testi

Richie Cotton

Data Evangelist at DataCamp

İki örneklemli problemler

  • Başka bir sorun, bir değişkenin grupları arasında örneklem istatistiklerini karşılaştırmaktır.
  • converted_comp sayısal bir değişkendir.
  • age_first_code_cut düzeyleri olan kategorik bir değişkendir ("child" ve "adult").
  • İlk kez çocukken programlayanların, yetişkinken başlayanlara göre daha yüksek ücret aldığı söylenebilir mi?
R ile Hipotez Testi

Hipotezler

$H_{0}$: Çocukken ilk kez kodlayanlar ile yetişkinken ilk kez kodlayanların ortalama ücreti (USD) aynıdır.

$H_{0}$: $\mu_{child} = \mu_{adult}$

$H_{0}$: $\mu_{child} - \mu_{adult} = 0$

$H_{A}$: Çocukken ilk kez kodlayanların ortalama ücreti (USD), yetişkinken ilk kez kodlayanlardan daha büyüktür.

$H_{A}$: $\mu_{child} > \mu_{adult}$

$H_{A}$: $\mu_{child} - \mu_{adult} > 0$

R ile Hipotez Testi

Grup bazında özet istatistikleri hesaplama

stack_overflow %>% 
  group_by(age_first_code_cut) %>% 
  summarize(mean_compensation = mean(converted_comp))
# A tibble: 2 x 2
  age_first_code_cut mean_compensation
  <chr>                          <dbl>
1 adult                        111544.
2 child                        138275.
R ile Hipotez Testi

Test istatistikleri

  • Örneklem ortalaması, anakütle ortalamasını tahmin eder.
  • $\bar{x}$ örneklem ortalamasını gösterir.
  • $\bar{x}_{child}$, çocukken kodlayanlar için örneklem ortalama ücrettir.
  • $\bar{x}_{adult}$, yetişkinken kodlayanlar için örneklem ortalama ücrettir.
  • $\bar{x}_{child} - \bar{x}_{adult}$ bir test istatistiğidir.
  • z-skorları, (standartlaştırılmış) test istatistiği türlerinden biridir.
R ile Hipotez Testi

Test istatistiğini standartlaştırma

$z = \dfrac{\text{örneklem istatistiği} - \text{anakütle parametresi}}{\text{standart hata}}$

$t = \dfrac{\text{örneklem istatistikleri farkı} - \text{anakütle parametreleri farkı}}{\text{standart hata}}$

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) - (\mu_{\text{child}} - \mu_{\text{adult}})}{SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}$

R ile Hipotez Testi

Standart hata

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

$s$ değişkenin standart sapmasıdır.

$n$ örneklem büyüklüğüdür (örneklemdeki gözlem/satır sayısı).

R ile Hipotez Testi

Sıfır hipotezi doğru varsayılırsa

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) - (\mu_{\text{child}} - \mu_{\text{adult}})}{SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}$

$H_{0}$: $\mu_{\text{child}} - \mu_{\text{adult}} = 0$

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) }{SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}$

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$

stack_overflow %>%
  group_by(age_first_code_cut) %>%
  summarize(
    xbar = mean(converted_comp),
    s = sd(converted_comp),
    n = n()
  )
# A tibble: 2 x 4
  age_first_code_cut    xbar       s     n
  <chr>                <dbl>   <dbl> <int>
1 adult              111544. 270381.  1579
2 child              138275. 278130.  1001
R ile Hipotez Testi

Test istatistiğini hesaplama

# A tibble: 2 x 4
  age_first_code_cut    xbar       s     n
  <chr>                <dbl>   <dbl> <int>
1 adult              111544. 270381.  1579
2 child              138275. 278130.  1001

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$

numerator <- xbar_child - xbar_adult
denominator <- sqrt(
  s_child ^ 2 / n_child + s_adult ^ 2 / n_adult
)
t_stat <- numerator / denominator
2.4046
R ile Hipotez Testi

Ayo berlatih!

R ile Hipotez Testi

Preparing Video For Download...