Kerangka "Hanya ada satu uji"

Pengujian Hipotesis di R

Richie Cotton

Data Evangelist at DataCamp

Data tidak seimbang

stack_overflow_imbalanced %>% 
  count(hobbyist, age_cat, .drop = FALSE)
  hobbyist     age_cat    n
1       No At least 30    0
2       No    Under 30  191
3      Yes At least 30   15
4      Yes    Under 30 1025

Sampel disebut tidak seimbang bila beberapa grup jauh lebih besar dari yang lain.

Pengujian Hipotesis di R

Hipotesis

$H_{0}$: Proporsi hobiis < 30 sama dengan proporsi hobiis ≥ 30.

$H_{A}$: Proporsi hobiis < 30 berbeda dari proporsi hobiis ≥ 30.

alpha <- 0.1

Pengujian Hipotesis di R

Tetap lanjut dengan uji proporsi

stack_overflow_imbalanced %>% 
  prop_test(
    hobbyist ~ age_cat,
    order = c("At least 30", "Under 30"),
    success = "Yes",
    alternative = "two.sided",
    correct = FALSE
  )
# A tibble: 1 x 6
  statistic chisq_df p_value alternative lower_ci upper_ci
      <dbl>    <dbl>   <dbl> <chr>          <dbl>    <dbl>
1      2.79        1  0.0949 two.sided    0.00718   0.0217
Pengujian Hipotesis di R

Tata bahasa grafik

Jenis plot base-R ggplot2
Scatter plot plot(, type = "p") ggplot() + geom_point()
Line plot plot(, type = "l") ggplot() + geom_line()
Histogram hist() ggplot() + geom_histogram()
Box plot boxplot() ggplot() + geom_boxplot()
Bar plot barplot() ggplot() + geom_bar()
Pie plot pie() ggplot() + geom_bar() + coord_polar()
Pengujian Hipotesis di R

Tata bahasa uji hipotesis

  • Kerangka There is only one test dari Allen Downey.
  • Diimplementasikan di R dalam paket infer.
  • generate() membuat data simulasi.
    • Mahal secara komputasi.
    • Tahan terhadap sampel kecil atau data tidak seimbang.
null_distn <- dataset %>% 
  specify() %>% 
  hypothesize() %>% 
  generate() %>% 
  calculate()
obs_stat <- dataset %>% 
  specify() %>% 
  calculate()
get_p_value(null_distn, obs_stat)
1 Allen Downey mengajar "Exploratory Data Analysis in Python".
Pengujian Hipotesis di R

Menentukan variabel yang diminati

Di kiri ada grid sel persegi panjang yang mewakili data frame. Dua kolom disorot. Di kanan grid ini ada kata 'specify' dengan panah ke kanan. Di kanan panah ada grid lain hanya dengan dua kolom yang disorot.

Pengujian Hipotesis di R

specify()

specify() memilih variabel yang ingin diuji.

  • Untuk uji 2 sampel, gunakan response ~ explanatory.
  • Untuk uji 1 sampel, gunakan response ~ NULL.
stack_overflow_imbalanced %>%
  specify(hobbyist ~ age_cat, success = "Yes")
Response: hobbyist (factor)
Explanatory: age_cat (factor)
# A tibble: 1,231 x 2
  hobbyist age_cat    
  <fct>    <fct>      
1 Yes      At least 30
2 Yes      At least 30
3 Yes      At least 30
4 Yes      Under 30   
5 Yes      At least 30
6 Yes      At least 30
7 No       Under 30   
# ... with 1,224 more rows
Pengujian Hipotesis di R

hypothesize()

hypothesize() menyatakan jenis hipotesis nol.

  • Untuk uji 2 sampel, gunakan "independence" atau "point".
  • Untuk uji 1 sampel, gunakan "point".
stack_overflow_imbalanced %>%
  specify(hobbyist ~ age_cat, success = "Yes") %>%
  hypothesize(null = "independence")
Response: hobbyist (factor)
Explanatory: age_cat (factor)
Null Hypothesis: independence
# A tibble: 1,231 x 2
  hobbyist age_cat    
  <fct>    <fct>      
1 Yes      At least 30
2 Yes      At least 30
3 Yes      At least 30
4 Yes      Under 30   
5 Yes      At least 30
6 Yes      At least 30
7 No       Under 30   
# ... with 1,224 more rows
Pengujian Hipotesis di R

Ayo berlatih!

Pengujian Hipotesis di R

Preparing Video For Download...