Survei Sosial Umum

Inferensi untuk Data Kategorik di R

Andrew Bray

Assistant Professor of Statistics at Reed College

Penjelajah Data GSS, hanya footer

Inferensi untuk Data Kategorik di R

Penjelajah Data GSS, dengan orang mengobrol

Inferensi untuk Data Kategorik di R

Penjelajah Data GSS, dengan dunia

Inferensi untuk Data Kategorik di R

Penjelajah Data GSS, dunia dan panah

Inferensi untuk Data Kategorik di R

Penjelajah Data GSS, dengan orang

Inferensi untuk Data Kategorik di R

Menjelajahi GSS

library(dplyr)
glimpse(gss)
Observations: 3,300
Variables: 25
$ id       <dbl> 518, 1092, 2094, 229, 979, 554, 491, 319, 3143, 1...
$ year     <dbl> 1982, 1982, 1982, 1982, 1982, 1982, 1982, 1982, 1...
$ age      <fct> 49, 22, 26, 75, 71, 33, 56, 33, 69, 40, 44, 42, 5...
$ class    <fct> WORKING CLASS, WORKING CLASS, WORKING CLASS, LOWE...
$ degree   <fct> HIGH SCHOOL, HIGH SCHOOL, HIGH SCHOOL, LT HIGH SC...
$ sex      <fct> MALE, MALE, MALE, MALE, FEMALE, FEMALE, MALE, FEM...
$ happy    <fct> HAPPY, HAPPY, HAPPY, HAPPY, HAPPY, HAPPY, HAPPY, ...
Inferensi untuk Data Kategorik di R

Menjelajahi GSS

gss2016 <- filter(gss, year == 2016)
ggplot(gss2016, aes(x = happy)) +
  geom_bar()

ch1v1-happy-barplot-a.png

Inferensi untuk Data Kategorik di R

Menjelajahi GSS

gss2016 <- filter(gss, year == 2016)
ggplot(gss2016, aes(x = happy)) +
  geom_bar()

ch1v1-happy-barplot-b.png

Inferensi untuk Data Kategorik di R

Menjelajahi GSS

p_hat <- gss2016 %>%
  summarize(prop_happy = mean(happy == "HAPPY")) %>%
  pull()
p_hat
0.7733333
Inferensi untuk Data Kategorik di R

Interval kepercayaan 95% umum

$$(\hat{p} - 2 \times SE, \hat{p} + 2 \times SE)$$

Proporsi sampel plus/minus dua galat baku

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 1

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 2

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 3

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 4

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 5

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 6

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 7

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 8

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 9

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 10

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 11

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 12

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 13

Inferensi untuk Data Kategorik di R

Bootstrap

Bootstrap 14

Inferensi untuk Data Kategorik di R

Interval Kepercayaan Bootstrap

library(infer)
boot <- gss2016 %>%
  specify(response = happy, 
          success = “HAPPY”) %>%
  generate(reps = 500, 
           type = "bootstrap") %>%
  calculate(stat = "prop")
boot
Response: happy (factor)
# A tibble: 500 x 2
   replicate  stat
       <int> <dbl>
 1         1 0.827
 2         2 0.740
 3         3 0.780
 4         4 0.773
 5         5 0.747
 6         6 0.753
Inferensi untuk Data Kategorik di R

Interval Kepercayaan Bootstrap

ggplot(boot, aes(x = stat)) +
  geom_density()

Plot kerapatan stat bootstrap

Inferensi untuk Data Kategorik di R

Interval Kepercayaan Bootstrap

SE <- boot %>%
  summarize(sd(stat)) %>%
  pull()
SE
0.03482251

$$(\hat{p} - 2 \times SE, \hat{p} + 2 \times SE)$$

c(p_hat - 2 * SE, p_hat + 2 * SE)
0.7051883 0.8412784
Inferensi untuk Data Kategorik di R

Ayo berlatih!

Inferensi untuk Data Kategorik di R

Preparing Video For Download...