t-istatistiklerinden p-değeri hesaplama

Python'da Hipotez Testi

James Chapman

Curriculum Manager, DataCamp

t-dağılımları

  • t-istatistiği t-dağılımını izler
  • Serbestlik derecesi (df) adlı bir parametreye sahiptir
  • Normal dağılımlara benzer, kuyrukları daha kalındır

Standart normal dağılımın PDF’si ile 1 serbestlik dereceli t-dağılımının karşılaştırıldığı grafik. t-dağılımının kuyrukları daha kalın, ortadaki tepe daha kısadır.

Python'da Hipotez Testi

Serbestlik derecesi

  • Serbestlik derecesi arttıkça $\rightarrow$ t-dağılımı normale yaklaşır
  • Normal dağılım $\rightarrow$ sonsuz df’li t-dağılımıdır
  • Serbestlik derecesi: örneklemde mantıken bağımsız değerlerin en büyük sayısı

Standart normal dağılımın PDF’si ile çeşitli serbestlik derecelerine sahip t-dağılımlarının karşılaştırıldığı grafik. Serbestlik derecesi arttıkça kuyruklar daralır ve tepe yükselir; normal dağılıma daha çok benzer.

Python'da Hipotez Testi

Serbestlik derecesi hesaplama

  • Veri kümesinde 5 bağımsız gözlem var
  • Dört değer: 2, 6, 8 ve 5
  • Örneklem ortalaması 5’tir
  • Son değer 4 olmak zorundadır
  • Burada 4 serbestlik derecesi vardır

 

  • $df = n_{child} + n_{adult} - 2$
Python'da Hipotez Testi

Hipotezler

$H_{0}$: İlk kez çocukken kodlayanlarla ilk kez yetişkinken kodlayanların ortalama ücreti (USD) aynıdır

$H_{A}$: İlk kez çocukken kodlayanların ortalama ücreti (USD), ilk kez yetişkinken kodlayanlardan daha büyüktür

 

Sağ kuyruklu test kullanın

Python'da Hipotez Testi

Anlamlılık düzeyi

$\alpha = 0.1$

Eğer $p \le \alpha$ ise $H_{0}$ reddedilir.

Python'da Hipotez Testi

p-değeri hesaplama: bir oranın bir değere karşılaştırılması

from scipy.stats import norm
1 - norm.cdf(z_score)

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

  • z-istatistiği: bir örnek istatistiğiyle anakütle parametresini tahmin ederken gerekir

  • t-istatistiği: birden çok örnek istatistiğiyle anakütle parametresini tahmin ederken gerekir

Python'da Hipotez Testi

p-değeri hesaplama: farklı gruplardan iki ortalama

numerator = xbar_child - xbar_adult
denominator = np.sqrt(s_child ** 2 / n_child + s_adult ** 2 / n_adult)
t_stat = numerator / denominator
1.8699313316221844
degrees_of_freedom = n_child + n_adult - 2
2259
Python'da Hipotez Testi

p-değeri hesaplama: farklı gruplardan iki ortalama

  • Normal CDF değil, t-dağılımı CDF’i kullanın
from scipy.stats import t
1 - t.cdf(t_stat, df=degrees_of_freedom)
0.030811302165157595
  • Çocukken kodlamaya başlayan Stack Overflow veri bilimcilerinin daha çok kazandığına dair kanıt var.
Python'da Hipotez Testi

Haydi pratik yapalım!

Python'da Hipotez Testi

Preparing Video For Download...