Uji hipotesis dan z-score

Pengujian Hipotesis di R

Richie Cotton

Data Evangelist at DataCamp

A/B testing

  • Electronic Arts (EA) adalah perusahaan gim video.
  • Pada 2013, mereka merilis SimCity 5.
  • Tujuannya meningkatkan pra-pemesanan gim.
  • Mereka memakai A/B testing untuk menguji skenario iklan.
  • Ini membagi pengguna menjadi grup kontrol dan perlakuan.

Gedung Electronic Arts

1 Kredit gambar: "Electronic Arts" oleh majaX1 CC BY-NC-SA 2.0
Pengujian Hipotesis di R

Uji A/B halaman ritel

Kontrol

Halaman SimCity dengan banner bertuliskan "pre-order and get $20 off your next purchase"

Perlakuan

Halaman SimCity tanpa banner

Pengujian Hipotesis di R

Hasil uji A/B

  • Grup perlakuan (tanpa iklan) mendapat 43,4% lebih banyak pembelian daripada kontrol (dengan iklan).
  • Intuisi bahwa "menampilkan iklan akan menaikkan penjualan" ternyata keliru.
  • Apakah hasil ini signifikan secara statistik atau hanya kebetulan?
  • Anda perlu data EA untuk menentukannya.
  • Gunakan teknik dari Sampling in R + kursus ini.
Pengujian Hipotesis di R

Survei Pengembang Stack Overflow 2020

library(dplyr)
glimpse(stack_overflow)
Rows: 2,261
Columns: 8
$ respondent         <dbl> 36, 47, 69, 125, 147, 152, 166, 170, 187, 196, 221,…
$ age_first_code_cut <chr> "adult", "child", "child", "adult", "adult", "adult…
$ converted_comp     <dbl> 77556, 74970, 594539, 2000000, 37816, 121980, 48644…
$ job_sat            <fct> Slightly satisfied, Very satisfied, Very satisfied,…
$ purple_link        <chr> "Hello, old friend", "Hello, old friend", "Hello, o…
$ age_cat            <chr> "At least 30", "At least 30", "Under 30", "At least…
$ age                <dbl> 34, 53, 25, 41, 28, 30, 28, 26, 43, 23, 24, 35, 37,…
$ hobbyist           <chr> "Yes", "Yes", "Yes", "Yes", "No", "Yes", "Yes", "Ye…
Pengujian Hipotesis di R

Berhipotesis tentang mean

Sebuah hipotesis:

Rata-rata kompensasi tahunan populasi data scientist adalah $110.000.

Estimasi titik (statistik sampel):

mean_comp_samp <- mean(stack_overflow$converted_comp)
mean_comp_samp <- stack_overflow %>% 
  summarize(mean_compensation = mean(converted_comp)) %>% 
  pull(mean_compensation)
119574.7
Pengujian Hipotesis di R

Membuat distribusi bootstrap

# Langkah 3. Ulangi langkah 1 & 2 berkali-kali
so_boot_distn <- replicate(
  n = 5000,
  expr = {
    # Langkah 1. Resampling
    stack_overflow %>%
      slice_sample(prop = 1, replace = TRUE) %>%
      # Langkah 2. Hitung estimasi titik
      summarize(mean_compensation = mean(converted_comp)) %>% 
      pull(mean_compensation)
  }
)
1 Distribusi bootstrap dibahas di Bab 4 Sampling in R
Pengujian Hipotesis di R

Memvisualisasikan distribusi bootstrap

tibble(resample_mean = so_boot_distn) %>%
  ggplot(aes(resample_mean)) +
  geom_histogram(binwidth = 1000)

Histogram distribusi bootstrap - berbentuk lonceng dan berkisar sekitar 110000 hingga 140000

Pengujian Hipotesis di R

Galat baku

std_error <- sd(so_boot_distn)
5511.674
Pengujian Hipotesis di R

z-score

$\text{nilai distandardisasi} = \dfrac{\text{nilai} - \text{mean}}{\text{simpangan baku}}$

$z = \dfrac{\text{stat. sampel} - \text{nilai param. hip.}}{\text{galat baku}}$

$z = \dfrac{\$119,574.7 - \$110,000}{\$5511.67} = 1.737$

mean_comp_samp
119574.7
mean_comp_hyp <- 110000
std_error
5511.674
z_score <- (mean_comp_samp - mean_comp_hyp) / std_error
1.737171
Pengujian Hipotesis di R

Menguji hipotesis

  • Apakah 1.737171 itu tinggi atau rendah?
  • Itulah tujuan kursus ini!
Kasus uji hipotesis:

Menentukan apakah statistik sampel dekat atau jauh dari nilai yang diharapkan (atau "dihipotesiskan").

Pengujian Hipotesis di R

Distribusi normal standar (z)

Distribusi normal standar: distribusi normal dengan mean nol, simpangan baku 1.

tibble(x = seq(-4, 4, 0.01)) %>% 
  ggplot(aes(x)) +
  stat_function(fun = dnorm) +
  ylab("PDF(x)")

Plot densitas PDF untuk distribusi normal standar

Pengujian Hipotesis di R

Ayo berlatih!

Pengujian Hipotesis di R

Preparing Video For Download...