p-değerleri

R ile Hipotez Testi

Richie Cotton

Data Evangelist at DataCamp

Ceza davaları

  • İki olası gerçek durum:
    1. Sanık suçu işledi.
    2. Sanık suçu işlemedi.
  • İki olası hüküm.
    1. Suçlu.
    2. Suçsuz.
  • Başta sanık suçsuz varsayılır.
  • Kanıtlar sanığın suçu işlediğini “makul şüphenin ötesinde” gösterirse “suçlu” kararı verilir; aksi halde “suçsuz”.
R ile Hipotez Testi

İlk programlama yaşı

  • age_first_code_cut, Stack Overflow kullanıcısının programlamaya ilk ne zaman başladığını sınıflandırır
    1. "adult" 14 yaş ve üstü başladığını belirtir
    2. "child" 14 yaşından önce başladığını belirtir
  • Önceki çalışmalar, yazılım geliştiricilerin %35’inin çocukken programlamaya başladığını öne sürer
  • Örneğimiz, veri bilimcilerde çocukken başlayanların oranının daha yüksek olduğuna dair kanıt sağlıyor mu?
R ile Hipotez Testi

Tanımlar

Bir hipotez, bilinmeyen bir anakütle parametresi hakkında bir ifadedir.

Bir hipotez testi, iki rakip hipotezin sınanmasıdır.

  • Sıfır hipotezi ($H_{0}$) mevcut “şampiyon” fikirdir.

  • Alternatif hipotez ($H_{A}$) araştırmacının yeni “rakip” fikridir.

Sorunumuz için

  • $H_{0}$: Çocukken programlamaya başlayan veri bilimcilerin oranı, yazılım geliştiricilerinkiyle aynıdır (%35).
  • $H_{A}$: Çocukken programlamaya başlayan veri bilimcilerin oranı %35’ten büyüktür.
1 “Naught”, Britanyalı İngilizcede “sıfır” demektir. Tarihsel nedenlerle “H-naught”, sıfır hipotezinin telaffuzunda uluslararası bir gelenektir.
R ile Hipotez Testi
  • İki olası gerçek durum:
    1. Sanık suçu işledi.
    2. Sanık suçu işlemedi.
  • İki olası hüküm.
    1. Suçlu.
    2. Suçsuz.
  • Başta sanık suçsuz varsayılır.
  • Kanıtlar suçu “makul şüphenin ötesinde” gösterirse “suçlu”, yoksa “suçsuz” kararı verilir.
  • Gerçekte ya $H_{A}$ ya da $H_{0}$ doğrudur (ikisi birden değil).
  • Test, “$H_{0}$ reddedildi” veya “$H_{0}$ reddedilemedi” kararıyla biter.
  • Başlangıçta sıfır hipotezi $H_{0}$ doğru kabul edilir.
  • Örnekten gelen kanıt $H_{A}$ lehine “anlamlı” ise onu seçeriz; değilse $H_{0}$’ı.

Anlamlılık düzeyi, hipotez testinde “makul şüphenin ötesi” eşiğidir.

R ile Hipotez Testi

Tek kuyruklu ve iki kuyruklu testler

Standart normal dağılımın pdf yoğunluk grafiği; orta kısım kapalı, yalnızca kuyruklar görünüyor.

Hipotez testleri, örnek istatistiğinin sıfır dağılımının kuyruklarında olup olmadığını belirler.

Test Kuyruklar
alternatif sıfırdan farklı iki kuyruk
alternatif sıfırdan büyük sağ kuyruk
alternatif sıfırdan küçük sol kuyruk

$H_{A}$: Çocukken programlamaya başlayan veri bilimcilerin oranı %35’ten büyüktür.

Alternatif hipotezimiz “büyüktür” dediği için sağ kuyruklu test gerekir.

R ile Hipotez Testi

p-değerleri

  • p-değeri büyüdükçe, $H_{0}$ lehine destek artar.
  • p-değeri küçüldükçe, $H_{0}$ aleyhine kanıt artar.
  • Küçük p-değerleri, istatistiğin sıfır dağılımının kuyruğunda olduğunu gösterir (sıfır hipotezi doğruysa istatistiğin dağılımı).
    • p-value’daki “p” olasılığı ifade eder.
    • p-değerleri için “küçük”, “sıfıra yakın” demektir.
R ile Hipotez Testi

p-değerinin tanımı

Bir p-değeri,

sınama istatistiğini gözlemleme olasılığıdır;

en az bu kadar uç ya da daha uç olanı

orijinal örneğimizde gördüğümüzden,

sıfır hipotezinin doğru olduğu varsayımıyla.

R ile Hipotez Testi

z-skorunun hesaplanması

prop_child_samp <- stack_overflow %>%
  summarize(point_estimate = mean(age_first_code_cut == "child")) %>%
  pull(point_estimate)
0.388
prop_child_hyp <- 0.35
std_error <- 0.0096028
z_score <- (prop_child_samp - prop_child_hyp) / std_error
3.956
R ile Hipotez Testi

p-değerinin hesaplanması

  • pnorm() normal KDF’dir.
  • Sol kuyruklu test → varsayılan lower.tail = TRUE.
  • Sağ kuyruklu test → lower.tail = FALSE ayarlayın.

 

p_value <- pnorm(z_score, lower.tail = FALSE)
3.818e-05
R ile Hipotez Testi

Hadi pratik yapalım!

R ile Hipotez Testi

Preparing Video For Download...