Menghitung p-value dari t-statistik

Pengujian Hipotesis dengan Python

James Chapman

Curriculum Manager, DataCamp

Sebaran t

  • t-statistik mengikuti sebaran t
  • Memiliki parameter bernama derajat kebebasan, atau df
  • Mirip sebaran normal, dengan ekor lebih gemuk

Grafik yang menunjukkan PDF sebaran normal standar dibandingkan sebaran t dengan 1 derajat kebebasan. Sebaran t memiliki ekor lebih gemuk dan puncak tengah lebih pendek.

Pengujian Hipotesis dengan Python

Derajat kebebasan

  • Derajat kebebasan lebih besar $\rightarrow$ sebaran t makin mendekati sebaran normal
  • Sebaran normal $\rightarrow$ sebaran t dengan df tak hingga
  • Derajat kebebasan: jumlah maksimum nilai yang logisnya independen dalam sampel data

Grafik yang menunjukkan PDF sebaran normal standar dibandingkan sebaran t dengan berbagai derajat kebebasan. Saat derajat kebebasan naik, ekor menyempit dan puncak meninggi, makin mirip sebaran normal.

Pengujian Hipotesis dengan Python

Menghitung derajat kebebasan

  • Dataset punya 5 observasi independen
  • Empat nilainya 2, 6, 8, dan 5
  • Rata-rata sampel 5
  • Nilai terakhir harus 4
  • Di sini ada 4 derajat kebebasan

 

  • $df = n_{child} + n_{adult} - 2$
Pengujian Hipotesis dengan Python

Hipotesis

$H_{0}$: Rata-rata kompensasi (USD) sama untuk yang pertama kali ngoding saat anak-anak dan yang pertama kali ngoding saat dewasa

$H_{A}$: Rata-rata kompensasi (USD) lebih besar untuk yang pertama kali ngoding saat anak-anak dibanding yang pertama kali ngoding saat dewasa

 

Gunakan uji sisi kanan

Pengujian Hipotesis dengan Python

Tingkat signifikansi

$\alpha = 0{,}1$

Jika $p \le \alpha$ maka tolak $H_{0}$.

Pengujian Hipotesis dengan Python

Menghitung p-value: satu proporsi vs. sebuah nilai

from scipy.stats import norm
1 - norm.cdf(z_score)

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

  • z-statistik: dipakai saat memakai satu statistik sampel untuk mengestimasi parameter populasi

  • t-statistik: dipakai saat memakai beberapa statistik sampel untuk mengestimasi parameter populasi

Pengujian Hipotesis dengan Python

Menghitung p-value: dua mean dari grup berbeda

numerator = xbar_child - xbar_adult
denominator = np.sqrt(s_child ** 2 / n_child + s_adult ** 2 / n_adult)
t_stat = numerator / denominator
1.8699313316221844
degrees_of_freedom = n_child + n_adult - 2
2259
Pengujian Hipotesis dengan Python

Menghitung p-value: dua mean dari grup berbeda

  • Gunakan CDF sebaran t, bukan CDF normal
from scipy.stats import t
1 - t.cdf(t_stat, df=degrees_of_freedom)
0.030811302165157595
  • Bukti bahwa data scientist Stack Overflow yang mulai ngoding saat anak-anak berpenghasilan lebih tinggi.
Pengujian Hipotesis dengan Python

Ayo berlatih!

Pengujian Hipotesis dengan Python

Preparing Video For Download...