p-value

Pengujian Hipotesis di R

Richie Cotton

Data Evangelist at DataCamp

Sidang pidana

  • Dua kemungkinan keadaan benar.
    1. Terdakwa melakukan kejahatan.
    2. Terdakwa tidak melakukan kejahatan.
  • Dua kemungkinan vonis.
    1. Bersalah.
    2. Tidak bersalah.
  • Awalnya terdakwa dianggap tidak bersalah.
  • Jika bukti "melampaui keraguan wajar" bahwa terdakwa melakukan kejahatan, vonis "bersalah" diberikan; jika tidak, "tidak bersalah".
Pengujian Hipotesis di R

Usia mulai pemrograman pertama

  • age_first_code_cut mengklasifikasikan kapan pengguna Stack Overflow mulai ngoding
    1. "adult" berarti mulai usia 14 atau lebih
    2. "child" berarti mulai sebelum 14
  • Riset sebelumnya menyebut 35% developer mulai ngoding saat anak-anak
  • Apakah sampel kita menunjukkan proporsi data scientist yang mulai saat anak-anak lebih besar?
Pengujian Hipotesis di R

Definisi

Hipotesis adalah pernyataan tentang parameter populasi yang tidak diketahui.

Uji hipotesis menguji dua hipotesis yang bersaing.

  • Hipotesis nol ($H_{0}$) adalah gagasan "juara" yang ada.

  • Hipotesis alternatif ($H_{A}$) adalah gagasan "penantang" dari peneliti.

Untuk masalah kita

  • $H_{0}$: Proporsi data scientist yang mulai ngoding saat anak-anak sama dengan developer (35%).
  • $H_{A}$: Proporsi data scientist yang mulai ngoding saat anak-anak lebih besar dari 35%.
1 "Naught" adalah bahasa Inggris Britania untuk "zero". Karena alasan historis, "H-naught" menjadi konvensi internasional untuk pengucapan hipotesis nol.
Pengujian Hipotesis di R
  • Dua kemungkinan keadaan benar.
    1. Terdakwa melakukan kejahatan.
    2. Terdakwa tidak melakukan kejahatan.
  • Dua kemungkinan vonis.
    1. Bersalah.
    2. Tidak bersalah.
  • Awalnya terdakwa dianggap tidak bersalah.
  • Jika bukti "melampaui keraguan wajar" bahwa terdakwa melakukan kejahatan, vonis "bersalah" diberikan; jika tidak, "tidak bersalah".
  • Pada kenyataannya, $H_{A}$ atau $H_{0}$ yang benar (bukan keduanya).
  • Hasil uji: "tolak $H_{0}$" atau "gagal menolak $H_{0}$".
  • Awalnya hipotesis nol, $H_{0}$, diasumsikan benar.
  • Jika bukti dari sampel "signifikan" bahwa $H_{A}$ benar, pilih itu; jika tidak, pilih $H_{0}$.

Tingkat signifikansi adalah padanan "melampaui keraguan wajar" dalam uji hipotesis.

Pengujian Hipotesis di R

Uji satu ekor dan dua ekor

Plot kerapatan pdf normal baku dengan bagian tengah ditutup, hanya menampilkan ekor.

Uji hipotesis menilai apakah statistik sampel jatuh di ekor sebaran nol.

Uji Ekor
alternatif berbeda dari nol dua ekor
alternatif lebih besar dari nol ekor kanan
alternatif kurang dari nol ekor kiri

$H_{A}$: Proporsi data scientist yang mulai ngoding saat anak-anak lebih besar dari 35%.

Karena alternatif memakai "lebih besar", kita perlu uji ekor kanan.

Pengujian Hipotesis di R

p-value

  • Semakin besar p-value, dukungan untuk $H_{0}$ makin kuat.
  • Semakin kecil p-value, bukti melawan $H_{0}$ makin kuat.
  • p-value kecil berarti statistik ada di ekor sebaran nol (sebaran statistik jika hipotesis nol benar).
    • Huruf "p" pada p-value berarti probabilitas.
    • Untuk p-value, "kecil" artinya "mendekati nol".
Pengujian Hipotesis di R

Definisi p-value

p-value adalah

probabilitas mengamati statistik uji

setidaknya sesekstrem

dengan yang terlihat pada sampel awal kita,

dengan asumsi hipotesis nol benar.

Pengujian Hipotesis di R

Menghitung z-score

prop_child_samp <- stack_overflow %>%
  summarize(point_estimate = mean(age_first_code_cut == "child")) %>%
  pull(point_estimate)
0.388
prop_child_hyp <- 0.35
std_error <- 0.0096028
z_score <- (prop_child_samp - prop_child_hyp) / std_error
3.956
Pengujian Hipotesis di R

Menghitung p-value

  • pnorm() adalah CDF normal.
  • Uji ekor kiri → gunakan default lower.tail = TRUE.
  • Uji ekor kanan → set lower.tail = FALSE.

 

p_value <- pnorm(z_score, lower.tail = FALSE)
3.818e-05
Pengujian Hipotesis di R

Ayo berlatih!

Pengujian Hipotesis di R

Preparing Video For Download...