Gerandomiseerde verdelingen

Basis van inferentie in R

Jo Hardin

Instructor

Logica van inferentie

ch1_2_v2_infer.002.png

Logica van inferentie

ch1_2_v2_infer.003.png

Logica van inferentie

ch1_2_v2_infer.004.png

Logica van inferentie

ch1_2_v2_infer.005.png

Logica van inferentie

ch1_2_v2_infer.006.png

Logica van inferentie

De nulverdeling begrijpen

Een verdeling van de statistiek uit de nulpopulatie genereren laat zien of de geobserveerde data onverenigbaar zijn met de nulhypothese

De nulverdeling begrijpen

Originele data

Locatie	Cola	Sinaasappel
Oost	28	6
West	19	7

$\hat{p}_\text{east} = 28/(28 + 6) = 0.82$

$\hat{p}_\text{west} = 19/(19 + 7) = 0.73$

De nulverdeling begrijpen

Eerste shuffle, gelijk aan origineel

Locatie	Cola	Sinaasappel
Oost	28	6
West	19	7

ch1_2_v2_infer.017.png

De nulverdeling begrijpen

Tweede shuffle

Locatie	Cola	Sinaasappel
Oost	27	7
West	20	6

ch1_2_v2_infer.019.png

De nulverdeling begrijpen

Derde shuffle

Locatie	Cola	Sinaasappel
Oost	28	8
West	21	5

ch1_2_v2_infer.020.png

De nulverdeling begrijpen

Vierde shuffle

Locatie	Cola	Sinaasappel
Oost	25	9
West	22	4

ch1_2_v2_infer.021.png

De nulverdeling begrijpen

Vijfde shuffle

Locatie	Cola	Sinaasappel
Oost	29	5
West	18	8

ch1_2_v2_infer.022.png

De nulverdeling begrijpen

Vijfde shuffle

Locatie	Cola	Sinaasappel
Oost	29	5
West	18	8

ch1_2_v2_infer.023.png

De nulverdeling begrijpen

ch1_2_v2_infer.024.png

De nulverdeling begrijpen

ch1_2_v2_infer.025.png

De nulverdeling begrijpen

ch1_2_v2_infer.026.png

De nulverdeling begrijpen

ch1_2_v2_infer.027.png

De nulverdeling begrijpen

ch1_2_v2_infer.028.png

De nulverdeling begrijpen

ch1_2_v2_infer.029.png

Eén willekeurige permutatie

soda %>%
group_by(location) %>%
summarize(prop_cola = 
    mean(drink == "cola")) %>%
summarize(diff(prop_cola))

# A tibble: 1 x 1
  `diff(prop_cola)`
              <dbl>
1        -0.09276018

library(infer)
soda %>% specify(drink ~ location,
                success = "cola") %>%
hypothesize(null = "independence") %>%
generate(reps = 1, type = "permute") %>%
calculate(stat = "diff in props", 
            order = c("west","east"))

# A tibble: 1 x 2
  replicate        stat
      <int>        <dbl>
1        1    -0.02488688

Veel willekeurige permutaties

soda %>%
  specify(drink ~ location, success = "cola") %>%
  hypothesize(null = "independence") %>%
  generate(reps = 5, type = "permute") %>%
  calculate(stat = "diff in props", order = c("west", "east"))

# A tibble: 5 x 2
  replicate        stat
      <int>       <dbl>
1         1  0.04298643
2         2 -0.09276018
3         3  0.11085973
4         4  0.17873303
5         5 -0.16063348

Willekeurige verdeling

ch1_2_v2_infer.047.png

Laten we oefenen!

Basis van inferentie in R