Interval untuk selisih

Inferensi untuk Data Kategorik di R

Andrew Bray

Assistant Professor of Statistics at Reed College

Pertanyaan dengan dua variabel

Apakah tingkat kepercayaan berbeda antara perempuan dan laki-laki?

Misalkan $p$ adalah proporsi yang percaya kehidupan setelah mati.

  • $H_{0} : p_{female} - p_{male} = 0$
  • $H_{A} : p_{female} - p_{male} \ne 0$
Inferensi untuk Data Kategorik di R

Apakah perempuan dan laki-laki berbeda pendapat tentang kehidupan setelah mati?

ggplot(gss2016, aes(x = sex, fill = postlife)) +
  geom_bar()

Diagram batang postlife ch2v2.png

Inferensi untuk Data Kategorik di R

Apakah perempuan dan laki-laki berbeda pendapat tentang kehidupan setelah mati?

ggplot(gss2016, aes(x = sex, fill = postlife)) +
  geom_bar(position = "fill")

Diagram batang terisi postlife ch2v2.png

Inferensi untuk Data Kategorik di R

Apakah perempuan dan laki-laki berbeda pendapat tentang kehidupan setelah mati?

p_hats <- gss2016 %>%
  group_by(sex) %>%
  summarize(mean(postlife == "YES", na.rm = TRUE)) %>%
  pull()
d_hat <- diff(p_hats)
d_hat
0.1472851
Inferensi untuk Data Kategorik di R

Menghasilkan data dari H0

  • $H_{0} : p_{female} - p_{male} = 0$
  • Tidak ada keterkaitan antara keyakinan akan akhirat dan jenis kelamin responden.
  • Variabel postlife independen dari variabel sex.

Hasilkan data dengan permutasi

Inferensi untuk Data Kategorik di R

Apakah perempuan dan laki-laki berbeda pendapat tentang kehidupan setelah mati?

gss2016 %>%
  specify(
    response = postlife, 
    explanatory = sex, 
    success = "YES"
  ) %>%
  hypothesize(null = "independence") %>%
  generate(reps = 1, type = "permute")
Inferensi untuk Data Kategorik di R

Apakah perempuan dan laki-laki berbeda pendapat tentang kehidupan setelah mati?

gss2016 %>%
  specify(
    postlife ~ sex,  # this line is new
    success = "YES"
  ) %>%
  hypothesize(null = "independence") %>%
  generate(reps = 1, type = "permute")
Response: postlife (factor)
Explanatory: sex (factor)
Null Hypothesis:  independence 
# A tibble: 137 x 3
# Groups:   replicate [1]
   postlife sex    replicate
   <fct>    <fct>      <int>
 1 YES      FEMALE         1
 2 YES      MALE           1
 3 YES      FEMALE         1
 4 YES      MALE           1
 5 YES      MALE           1
 6 YES      FEMALE         1
 7 NO       FEMALE         1
Inferensi untuk Data Kategorik di R

Apakah perempuan dan laki-laki berbeda pendapat tentang kehidupan setelah mati?

gss2016 %>%
  specify(
    postlife ~ sex, 
    success = "YES"
  ) %>%
  hypothesize(null = "independence") %>%
  generate(reps = 1, type = "permute")
Response: postlife (factor)
Explanatory: sex (factor)
Null Hypothesis:  independence 
# A tibble: 137 x 3
# Groups:   replicate [1]
   postlife sex    replicate
   <fct>    <fct>      <int>
 1 YES      FEMALE         1
 2 NO       MALE           1
 3 NO       FEMALE         1
 4 YES      MALE           1
 5 YES      MALE           1
 6 YES      FEMALE         1
 7 YES      FEMALE         1
Inferensi untuk Data Kategorik di R

Apakah perempuan dan laki-laki berbeda pendapat tentang kehidupan setelah mati?

gss2016 %>%
  specify(postlife ~ sex, success = "YES") %>%
  hypothesize(null = "independence") %>%
  generate(reps = 500, type = "permute") %>%
  calculate(stat = "diff in props", order = c("FEMALE", "MALE"))
Warning message:
Removed 13 rows containing missing values.
Inferensi untuk Data Kategorik di R

Apakah perempuan dan laki-laki berbeda pendapat tentang kehidupan setelah mati?

ggplot(null, aes(x = stat)) +
  geom_density() +
  geom_vline(xintercept = d_hat, color = "red")

Data ini menunjukkan adanya perbedaan antar jenis kelamin dalam keyakinan akan kehidupan setelah mati.

Plot kerapatan ch2v2.png

Inferensi untuk Data Kategorik di R

Ayo berlatih!

Inferensi untuk Data Kategorik di R

Preparing Video For Download...