De centrale limietstelling

Inleiding tot statistiek in R

Maggie Matsui

Content Developer, DataCamp

5 keer dobbelen

die <- c(1, 2, 3, 4, 5, 6)

# Gooi 5 keer sample_of_5 <- sample(die, 5, replace = TRUE) sample_of_5
1 3 4 1 1
mean(sample_of_5)
2.0

 

zeszijdige dobbelsteen

Inleiding tot statistiek in R

5 keer dobbelen

# Gooi 5 keer en neem het gemiddelde
sample(die, 5, replace = TRUE) %>% mean()
4.4
sample(die, 5, replace = TRUE) %>% mean()
3.8
Inleiding tot statistiek in R

5 keer dobbelen, 10 keer herhaald

Herhaal 10 keer:

  • Gooi 5 keer
  • Neem het gemiddelde

 

sample_means <- replicate(10, sample(die, 5, replace = TRUE) %>% mean())

sample_means
3.8 4.0 3.8 3.6 3.2 4.8 2.6 3.0 2.6 2.0
Inleiding tot statistiek in R

Steekproevenverdelingen

Steekproevenverdeling van het steekproefgemiddelde

histogram van 10 steekproefgemiddelden

Inleiding tot statistiek in R

100 steekproefgemiddelden

replicate(100, sample(die, 5, replace = TRUE) %>% mean())
2.8 3.2 1.8 4.6 4.0 2.8 4.4 2.4 3.4 2.8 4.2 3.4 ... 2.2 3.8 3.6 3.8 4.4 4.8 2.4

histogram van 100 steekproefgemiddelden

Inleiding tot statistiek in R

1000 steekproefgemiddelden

sample_means <- replicate(1000, sample(die, 5, replace = TRUE) %>% mean())

histogram van 1000 steekproefgemiddelden

Inleiding tot statistiek in R

Centrale limietstelling

De steekproevenverdeling van een statistiek wordt met meer trekkingen steeds normaler.

histogrammen van 10, 100 en 1000 steekproefgemiddelden; met meer gemiddelden wordt de verdeling klokvormiger

 

* Steekproeven moeten willekeurig en onafhankelijk zijn

Inleiding tot statistiek in R

Standaarddeviatie en de CLT

replicate(1000, sample(die, 5, replace = TRUE) %>% sd())

Verdeling van 1000 steekproefstandaarddeviaties van 5 worpen

Inleiding tot statistiek in R

Proporties en de CLT

sales_team <- c("Amir", "Brian", "Claire", "Damian")

sample(sales_team, 10, replace = TRUE)
"Claire" "Brian"  "Brian"  "Brian"  "Damian" "Damian" "Brian"  "Brian" 
"Amir"   "Amir"
sample(sales_team, 10, replace = TRUE)
"Amir"   "Amir"   "Claire" "Amir"   "Amir"   "Brian"  "Amir"   "Claire" 
"Claire" "Claire"
Inleiding tot statistiek in R

Steekproevenverdeling van proportie

Verdeling van steekproefproporties ziet er ook normaal uit

Inleiding tot statistiek in R

Gemiddelde van de steekproevenverdeling

# Verwachte waarde van de dobbelsteen schatten
mean(sample_means)
3.48
# Aandeel "Claire" schatten
mean(sample_props)
0.26
  • Kenmerken van een onbekende onderliggende verdeling schatten

Steekproevenverdeling van gemiddelden met stippellijn in het midden  

  • Kenmerken van grote populaties makkelijker schatten
Inleiding tot statistiek in R

Laten we oefenen!

Inleiding tot statistiek in R

Preparing Video For Download...