Hipotez testlerinde varsayımlar

Python'da Hipotez Testi

James Chapman

Curriculum Manager, DataCamp

Rastgelelik

Varsayım

Örneklemler daha büyük popülasyonların rastgele alt kümeleridir

Sonuç

Örneklem popülasyonu temsil etmez

Nasıl kontrol edilir

Verinizin nasıl toplandığını anlayın
Veri toplayan/alan uzmanıyla görüşün

“Sorumlu Kaynaklı İçerikler” ifadesi olan bir logo.

¹ Örnekleme teknikleri "Sampling in Python" bölümünde ele alınır.

Gözlemlerin bağımsızlığı

Varsayım

Veri setindeki her gözlem (satır) bağımsızdır

Sonuç

Yanlış negatif/pozitif hata olasılığı artar

Nasıl kontrol edilir

Verimizin nasıl toplandığını anlayın

Büyük örneklem

Varsayım

Belirsizliği azaltacak kadar büyük örneklem; Merkezi Limit Teoremi geçerlidir

Sonuç

Daha geniş güven aralıkları
Yanlış negatif/pozitif hata olasılığı artar

Nasıl kontrol edilir

Teste bağlıdır

Büyük örneklem: t-testi

Tek örneklem

Örneklemde en az 30 gözlem

$n \ge 30$

$n$: örneklem büyüklüğü

İki örneklem

Her örneklemde en az 30 gözlem

$n_{1} \ge 30, n_{2} \ge 30$

$n_{i}$: grup $i$ için örneklem büyüklüğü

Eşleştirilmiş örneklemler

Örneklemler arasında en az 30 gözlem çifti

Verimizdeki satır sayısı $\ge 30$

ANOVA

Her örneklemde en az 30 gözlem

$tüm\ i\ değerleri\ için\ n_{i} \ge 30$

Büyük örneklem: oran testleri

Tek örneklem

Örneklemdeki başarı sayısı ≥ 10

$n \times \hat{p} \ge 10$

Örneklemdeki başarısızlık sayısı ≥ 10

$n \times (1 - \hat{p}) \ge 10$

$n$: örneklem büyüklüğü
$\hat{p}$: örneklemdeki başarı oranı

İki örneklem

Her örneklemde başarı sayısı ≥ 10

$n_{1} \times \hat{p}_{1} \ge 10$

$n_{2} \times \hat{p}_{2} \ge 10$

Her örneklemde başarısızlık sayısı ≥ 10

$n_{1} \times (1 - \hat{p}_{1}) \ge 10$

$n_{2} \times (1 - \hat{p}_{2}) \ge 10$

Büyük örneklem: ki-kare testleri

Her grupta başarı sayısı ≥ 5

$n_{i} \times \hat{p}_{i} \ge 5$ tüm $i$ için

Her grupta başarısızlık sayısı ≥ 5

$n_{i} \times (1 - \hat{p}_{i}) \ge 5$ tüm $i$ için

$n_{i}$: grup $i$ için örneklem büyüklüğü
$\hat{p}_{i}$: grup $i$ örneklemindeki başarı oranı

Sağduyu kontrolü

Bootstrap dağılımı normal görünmüyorsa, varsayımlar muhtemelen geçerli değildir

Veri toplamayı yeniden gözden geçirin: rastgelelik, bağımsızlık ve örneklem büyüklüğü

Haydi pratik yapalım!

Python'da Hipotez Testi