Hipotez testleri ve z-skorları

R ile Hipotez Testi

Richie Cotton

Data Evangelist at DataCamp

A/B testi

  • Electronic Arts (EA) bir video oyun şirketidir.
  • 2013’te SimCity 5’i çıkardılar.
  • Amaç, ön siparişleri artırmaktı.
  • Farklı reklam senaryolarını A/B testiyle denediler.
  • Bu, kullanıcıları kontrol ve tedavi gruplarına ayırmayı içerir.

Electronic Arts binası

1 Görsel kaynağı: "Electronic Arts" majaX1 tarafından CC BY-NC-SA 2.0
R ile Hipotez Testi

Perakende web sayfası A/B testi

Kontrol

"ön sipariş verin ve bir sonraki alışverişinizde 20 $ indirim" yazan banner’lı SimCity web sayfası

Tedavi

Bannersız SimCity web sayfası

R ile Hipotez Testi

A/B test sonuçları

  • Tedavi grubu (reklam yok), kontrol grubuna (reklamlı) göre %43,4 daha fazla satın alma yaptı.
  • “Reklam göstermek satışları artırır” sezgisi tamamen yanlıştı.
  • Bu sonuç istatistiksel olarak anlamlı mıydı, yoksa şans eseri mi?
  • Bunu belirlemek için EA’nin verilerine ihtiyaç var.
  • Bunu yapmak için Sampling in R + bu dersteki teknikleri kullanırsınız.
R ile Hipotez Testi

Stack Overflow Geliştirici Anketi 2020

library(dplyr)
glimpse(stack_overflow)
Rows: 2,261
Columns: 8
$ respondent         <dbl> 36, 47, 69, 125, 147, 152, 166, 170, 187, 196, 221,…
$ age_first_code_cut <chr> "adult", "child", "child", "adult", "adult", "adult…
$ converted_comp     <dbl> 77556, 74970, 594539, 2000000, 37816, 121980, 48644…
$ job_sat            <fct> Slightly satisfied, Very satisfied, Very satisfied,…
$ purple_link        <chr> "Hello, old friend", "Hello, old friend", "Hello, o…
$ age_cat            <chr> "At least 30", "At least 30", "Under 30", "At least…
$ age                <dbl> 34, 53, 25, 41, 28, 30, 28, 26, 43, 23, 24, 35, 37,…
$ hobbyist           <chr> "Yes", "Yes", "Yes", "Yes", "No", "Yes", "Yes", "Ye…
R ile Hipotez Testi

Ortalama için hipotez kurma

Bir hipotez:

Veri bilimcilerinin popülasyonunda yıllık ortalama ücret 110.000 $’dır.

Nokta tahmini (örneklem istatistiği):

mean_comp_samp <- mean(stack_overflow$converted_comp)
mean_comp_samp <- stack_overflow %>% 
  summarize(mean_compensation = mean(converted_comp)) %>% 
  pull(mean_compensation)
119574.7
R ile Hipotez Testi

Bootstrap dağılımı üretme

# Adım 3. Adım 1 ve 2’yi birçok kez tekrarlayın
so_boot_distn <- replicate(
  n = 5000,
  expr = {
    # Adım 1. Yeniden örnekleme
    stack_overflow %>%
      slice_sample(prop = 1, replace = TRUE) %>%
      # Adım 2. Nokta tahmini hesapla
      summarize(mean_compensation = mean(converted_comp)) %>% 
      pull(mean_compensation)
  }
)
1 Bootstrap dağılımları Sampling in R, Bölüm 4’te öğretilir
R ile Hipotez Testi

Bootstrap dağılımını görselleştirme

tibble(resample_mean = so_boot_distn) %>%
  ggplot(aes(resample_mean)) +
  geom_histogram(binwidth = 1000)

Bootstrap dağılımının histogramı - çan eğrisi biçiminde ve yaklaşık 110000 ile 140000 arasında

R ile Hipotez Testi

Standart hata

std_error <- sd(so_boot_distn)
5511.674
R ile Hipotez Testi

z-skorları

$\text{standartlaştırılmış değer} = \dfrac{\text{değer} - \text{ortalama}}{\text{standart sapma}}$

$z = \dfrac{\text{örneklem ist.} - \text{hip. param. değeri}}{\text{standart hata}}$

$z = \dfrac{\$119,574.7 - \$110,000}{\$5511.67} = 1.737$

mean_comp_samp
119574.7
mean_comp_hyp <- 110000
std_error
5511.674
z_score <- (mean_comp_samp - mean_comp_hyp) / std_error
1.737171
R ile Hipotez Testi

Hipotezi test etme

  • 1.737171 yüksek mi, düşük mü?
  • Bu dersin hedefi bu!
Hipotez testi kullanım alanı:

Örneklem istatistiklerinin beklenen (veya “hipotezlenen”) değerlere yakın mı uzak mı olduğunu belirlemek.

R ile Hipotez Testi

Standart normal (z) dağılımı

Standart normal dağılım: ortalaması sıfır, standart sapması 1 olan normal dağılım.

tibble(x = seq(-4, 4, 0.01)) %>% 
  ggplot(aes(x)) +
  stat_function(fun = dnorm) +
  ylab("PDF(x)")

Standart normal dağılımın PDF yoğunluk grafiği

R ile Hipotez Testi

Hadi pratik yapalım!

R ile Hipotez Testi

Preparing Video For Download...