İstatistiksel anlamlılık

R ile Hipotez Testi

Richie Cotton

Data Evangelist at DataCamp

p-değeri özeti

  • p-değerleri sıfır hipotezine kanıtı ölçer.
  • Büyük p-değeri → sıfır hipotezi reddedilemez.
  • Küçük p-değeri → sıfır hipotezi reddedilir.
  • Eşik noktası nedir?
R ile Hipotez Testi

Anlamlılık düzeyi

Bir hipotez testinin anlamlılık düzeyi ($\alpha$), "makul şüphenin ötesi" için eşiktir.

  • Yaygın $\alpha$ değerleri: 0.1, 0.05, 0.01.
  • Eğer $p \le \alpha$ ise $H_{0}$ reddedilir, değilse $H_{0}$ reddedilemez.
  • $\alpha$, testi yapmadan önce belirlenmelidir.
R ile Hipotez Testi

p-değerinin hesaplanması

alpha <- 0.05
prop_child_samp <- stack_overflow %>%
  summarize(
    point_estimate = mean(age_first_code_cut == "child")
  ) %>%
  pull(point_estimate)
prop_child_hyp <- 0.35
std_error <- 0.0096028
z_score <- (prop_child_samp - prop_child_hyp) / std_error
p_value <- pnorm(z_score, lower.tail = FALSE)
3.818e-05
p_value <= alpha
TRUE

p_value, alpha'dan küçüktür ya da eşittir; bu yüzden $H_{0}$ reddedilir ve $H_{A}$ kabul edilir.

Çocukken programlamaya başlayan veri bilimcilerin oranı %35'ten fazladır.

R ile Hipotez Testi

Güven aralıkları

Anlamlılık düzeyi 0,05 için, genelde 1 - 0.05 = 0.95 güven aralığı seçilir.

conf_int <- first_code_boot_distn %>%
  summarize(
    lower = quantile(first_code_child_rate, 0.025),
    upper = quantile(first_code_child_rate, 0.975)
  )
# A tibble: 1 x 2
  lower upper
  <dbl> <dbl>
1 0.369 0.407
R ile Hipotez Testi

Hata türleri

Suç işlemedi (gerçek) Suç işledi (gerçek)
Karar: suçsuz doğru paçayı sıyırdı
Karar: suçlu haksız mahkûmiyet doğru

 

gerçek $H_{0}$ gerçek $H_{A}$
seçilen $H_{0}$ doğru yanlış negatif
seçilen $H_{A}$ yanlış pozitif doğru

 

Yanlış pozitifler Tip I hatadır; yanlış negatifler Tip II hatadır.

R ile Hipotez Testi

Örneğimizde olası hatalar

Eğer $p \le \alpha$ ise, $H_{0}$ reddedilir:

  • Yanlış pozitif (Tip I) hata olabilir: veri bilimcilerin çocukken kod yazmaya daha yüksek oranda başladığını sandık, aslında başlamadılar.

Eğer $ p \gt \alpha$ ise, $H_{0}$ reddedilemez:

  • Yanlış negatif (Tip II) hata olabilir: veri bilimcilerin çocukken yazılım mühendisleriyle aynı oranda başladığını sandık, aslında daha yüksek oranda başladılar.
R ile Hipotez Testi

Haydi pratik yapalım!

R ile Hipotez Testi

Preparing Video For Download...