p-value

Pengujian Hipotesis dengan Python

James Chapman

Curriculum Manager, DataCamp

Persidangan pidana

  • Dua kemungkinan keadaan benar:
    1. Terdakwa melakukan kejahatan
    2. Terdakwa tidak melakukan kejahatan
  • Dua kemungkinan vonis:
    1. Bersalah
    2. Tidak bersalah
  • Awalnya terdakwa diasumsikan tidak bersalah
  • Jaksa harus menghadirkan bukti "melampaui keraguan wajar" untuk vonis bersalah
Pengujian Hipotesis dengan Python

Usia mulai pemrograman pertama

  • age_first_code_cut mengklasifikasikan kapan pengguna Stack Overflow mulai ngoding
    • "adult" artinya mulai usia 14 atau lebih
    • "child" artinya mulai sebelum 14
  • Riset sebelumnya: 35% developer mulai ngoding saat anak-anak
  • Ada bukti proporsi data scientist yang mulai saat anak-anak lebih besar?
Pengujian Hipotesis dengan Python

Definisi

Sebuah hipotesis adalah pernyataan tentang parameter populasi yang tidak diketahui

Uji hipotesis menguji dua hipotesis yang bersaing

  • Hipotesis nol ($H_{0}$) adalah gagasan yang ada

  • Hipotesis alternatif ($H_{A}$) adalah gagasan penantang dari peneliti

Untuk masalah kita:

  • $H_{0}$: Proporsi data scientist yang mulai ngoding saat anak-anak adalah 35%
  • $H_{A}$: Proporsi data scientist yang mulai ngoding saat anak-anak lebih dari 35%
1 "Naught" adalah bahasa Inggris Britania untuk "nol". Karena alasan historis, "H-naught" adalah konvensi internasional untuk melafalkan hipotesis nol.
Pengujian Hipotesis dengan Python

Persidangan vs. uji hipotesis

  • Salah satu dari $H_{A}$ atau $H_{0}$ benar (bukan keduanya)
  • Awalnya, $H_{0}$ diasumsikan benar
  • Hasil uji: "tolak $H_{0}$" atau "gagal menolak $H_{0}$"
  • Jika bukti sampel "signifikan" bahwa $H_{A}$ benar, tolak $H_{0}$, jika tidak pilih $H_{0}$

Tingkat signifikansi adalah padanan "melampaui keraguan wajar" pada uji hipotesis

Pengujian Hipotesis dengan Python

Uji satu ekor vs. dua ekor

Plot kerapatan pdf normal baku dengan ekor kiri dan kanan disorot merah.

Uji hipotesis memeriksa apakah statistik sampel berada di ekor sebaran nol

Uji Ekor
alternatif berbeda dari nol dua ekor
alternatif lebih besar dari nol ekor kanan
alternatif lebih kecil dari nol ekor kiri

 

$H_{A}$: Proporsi data scientist yang mulai ngoding saat anak-anak lebih besar dari 35%

Ini uji ber-eko kanan

Pengujian Hipotesis dengan Python

p-value

p-value: probabilitas memperoleh hasil, dengan asumsi hipotesis nol benar

  • p-value besar, dukungan besar untuk $H_{0}$
    • Statistik kemungkinan bukan di ekor sebaran nol
  • p-value kecil, bukti kuat menentang $H_{0}$
    • Statistik kemungkinan di ekor sebaran nol
  • "p" pada p-value → probabilitas
  • "kecil" berarti "mendekati nol"
Pengujian Hipotesis dengan Python

Menghitung z-score

prop_child_samp = (stack_overflow['age_first_code_cut'] == "child").mean()
0.39141972578505085
prop_child_hyp = 0.35
std_error = np.std(first_code_boot_distn, ddof=1)
0.010351057228878566
z_score = (prop_child_samp - prop_child_hyp) / std_error
4.001497129152506
Pengujian Hipotesis dengan Python

Menghitung p-value

  • norm.cdf() adalah CDF normal dari scipy.stats.
  • Uji ekor kiri → gunakan norm.cdf().
  • Uji ekor kanan → gunakan 1 - norm.cdf().

 

from scipy.stats import norm
1 - norm.cdf(z_score, loc=0, scale=1)
3.1471479512323874e-05
Pengujian Hipotesis dengan Python

Ayo berlatih!

Pengujian Hipotesis dengan Python

Preparing Video For Download...