Intervallen voor verschillen

Inferentie voor categorische gegevens in R

Andrew Bray

Assistant Professor of Statistics at Reed College

Een vraag met twee variabelen

Geloven vrouwen en mannen in verschillende mate?

Laat $p$ het aandeel zijn dat gelooft in leven na de dood.

  • $H_{0} : p_{female} - p_{male} = 0$
  • $H_{A} : p_{female} - p_{male} \ne 0$
Inferentie voor categorische gegevens in R

Verschillen vrouwen en mannen in hun mening over leven na de dood?

ggplot(gss2016, aes(x = sex, fill = postlife)) +
  geom_bar()

ch2v2-postlife-barplot.png

Inferentie voor categorische gegevens in R

Verschillen vrouwen en mannen in hun mening over leven na de dood?

ggplot(gss2016, aes(x = sex, fill = postlife)) +
  geom_bar(position = "fill")

ch2v2-postlife-barplot-filled.png

Inferentie voor categorische gegevens in R

Verschillen vrouwen en mannen in hun mening over leven na de dood?

p_hats <- gss2016 %>%
  group_by(sex) %>%
  summarize(mean(postlife == "YES", na.rm = TRUE)) %>%
  pull()
d_hat <- diff(p_hats)
d_hat
0.1472851
Inferentie voor categorische gegevens in R

Data genereren vanuit H0

  • $H_{0} : p_{female} - p_{male} = 0$
  • Er is geen verband tussen geloof in een hiernamaals en het geslacht.
  • De variabele postlife is onafhankelijk van sex.

Genereer data via permutatie

Inferentie voor categorische gegevens in R

Verschillen vrouwen en mannen in hun mening over leven na de dood?

gss2016 %>%
  specify(
    response = postlife, 
    explanatory = sex, 
    success = "YES"
  ) %>%
  hypothesize(null = "independence") %>%
  generate(reps = 1, type = "permute")
Inferentie voor categorische gegevens in R

Verschillen vrouwen en mannen in hun mening over leven na de dood?

gss2016 %>%
  specify(
    postlife ~ sex,  # this line is new
    success = "YES"
  ) %>%
  hypothesize(null = "independence") %>%
  generate(reps = 1, type = "permute")
Response: postlife (factor)
Explanatory: sex (factor)
Null Hypothesis:  independence 
# A tibble: 137 x 3
# Groups:   replicate [1]
   postlife sex    replicate
   <fct>    <fct>      <int>
 1 YES      FEMALE         1
 2 YES      MALE           1
 3 YES      FEMALE         1
 4 YES      MALE           1
 5 YES      MALE           1
 6 YES      FEMALE         1
 7 NO       FEMALE         1
Inferentie voor categorische gegevens in R

Verschillen vrouwen en mannen in hun mening over leven na de dood?

gss2016 %>%
  specify(
    postlife ~ sex, 
    success = "YES"
  ) %>%
  hypothesize(null = "independence") %>%
  generate(reps = 1, type = "permute")
Response: postlife (factor)
Explanatory: sex (factor)
Null Hypothesis:  independence 
# A tibble: 137 x 3
# Groups:   replicate [1]
   postlife sex    replicate
   <fct>    <fct>      <int>
 1 YES      FEMALE         1
 2 NO       MALE           1
 3 NO       FEMALE         1
 4 YES      MALE           1
 5 YES      MALE           1
 6 YES      FEMALE         1
 7 YES      FEMALE         1
Inferentie voor categorische gegevens in R

Verschillen vrouwen en mannen in hun mening over leven na de dood?

gss2016 %>%
  specify(postlife ~ sex, success = "YES") %>%
  hypothesize(null = "independence") %>%
  generate(reps = 500, type = "permute") %>%
  calculate(stat = "diff in props", order = c("FEMALE", "MALE"))
Warning message:
Removed 13 rows containing missing values.
Inferentie voor categorische gegevens in R

Verschillen vrouwen en mannen in hun mening over leven na de dood?

ggplot(null, aes(x = stat)) +
  geom_density() +
  geom_vline(xintercept = d_hat, color = "red")

Deze data wijzen op een verschil tussen geslachten in geloof in leven na de dood.

ch2v2-density-plot.png

Inferentie voor categorische gegevens in R

Laten we oefenen!

Inferentie voor categorische gegevens in R

Preparing Video For Download...