Wat is de kans?

Inleiding tot statistiek in R

Maggie Matsui

Content Developer, DataCamp

Kans meten

Wat is de kans op een gebeurtenis?

$$ P(\text{event}) = \frac{\text{\# manieren waarop event kan gebeuren}}{\text{totaal \# mogelijke uitkomsten}} $$

Voorbeeld: een muntworp

$$ P(\text{kop}) = \frac{\text{1 manier om kop te krijgen}}{\text{2 mogelijke uitkomsten}} = \frac{1}{2} = 50\%$$

Getallenlijn van kans. 0 procent = onmogelijk, 100 procent = zeker

Verkopers toewijzen

Doos met de namen van Amir, Brian, Claire en Damian

Verkopers toewijzen

Brians naam getrokken

$$P(\text{Brian}) = \frac{1}{4} = 25\%$$

Steekproeven uit een data frame

sales_counts

   name  n_sales
 1 Amir      178
 2 Brian     126
 3 Claire     75
 4 Damian     69

sales_counts %>%
  sample_n(1)

   name  n_sales
 1 Brian     126

sales_counts %>%
  sample_n(1)

   name  n_sales
 1 Claire     75

Een willekeurige seed zetten

set.seed(5)

sales_counts %>%
  sample_n(1)

   name  n_sales
 1 Brian     126

set.seed(5)

sales_counts %>%
  sample_n(1)

   name  n_sales
 1 Brian     126

Een tweede gesprek

Steekproef zonder terugleggen

Doos met Amir, Claire, Damian

Een tweede gesprek

Claires naam getrokken

$$P(\text{Claire}) = \frac{1}{3} = 33\%$$

Twee keer samplen in R

sales_counts %>%
  sample_n(2)

   name  n_sales
 1 Brian     126
 2 Claire     75

Steekproef met terugleggen

GIF van hand die in doos grijpt, Brians naam pakt en teruglegt

Steekproef met terugleggen

Screen Shot 2020-04-28 at 5.21.54 PM.png

$$P(\text{Claire}) = \frac{1}{4} = 25\%$$

Steekproef met terugleggen in R

sales_counts %>%
  sample_n(2, replace = TRUE)

   name  n_sales
 1 Brian     126
 2 Claire     75

5 gesprekken:

sample(sales_team, 5, replace = TRUE)

   name  n_sales
 1 Brian     126
 2 Claire     75
 3 Brian     126
 4 Brian     126
 5 Amir      178

Onafhankelijke gebeurtenissen

Twee gebeurtenissen zijn onafhankelijk als de kans op de tweede niet wordt beïnvloed door de uitkomst van de eerste.

Twee kolommen: eerste trekking met Amir, Brian, Claire, Damian. Tweede trekking leeg

Onafhankelijke gebeurtenissen

Twee gebeurtenissen zijn onafhankelijk als de kans op de tweede niet wordt beïnvloed door de uitkomst van de eerste.

Steekproef met terugleggen = elke trekking is onafhankelijk

Pijlen van elke naam in eerste kolom naar Claire in tweede kolom, met kans 25%

Afhankelijke gebeurtenissen

Twee gebeurtenissen zijn afhankelijk als de kans op de tweede wel wordt beïnvloed door de uitkomst van de eerste.

Twee kolommen: eerste trekking met Amir, Brian, Claire, Damian. Tweede trekking leeg

Afhankelijke gebeurtenissen

Twee gebeurtenissen zijn afhankelijk als de kans op de tweede wel wordt beïnvloed door de uitkomst van de eerste.

Claire in eerste kolom wijst naar Claire in tweede kolom met kans 0%

Afhankelijke gebeurtenissen

Twee gebeurtenissen zijn afhankelijk als de kans op de tweede wel wordt beïnvloed door de uitkomst van de eerste.

Steekproef zonder terugleggen = elke trekking is afhankelijk

Amir, Brian en Damian in eerste kolom wijzen naar Claire in tweede kolom met kans 33%

Laten we oefenen!

Inleiding tot statistiek in R