Verdelingen: deel één

Best practices voor visualisaties in R

Nick Strayer

Instructor

Wat zijn verdelingsdata?

  • Meerdere ‘observaties’
  • Meestal een steekproef uit een populatie

Best practices voor visualisaties in R

Waarom verdelingen belangrijk zijn

  • Fouten bij verzamelen of opschonen worden zichtbaar
  • Kan aangeven dat je in een model voor een variabele moet controleren
  • Eerlijk blijven naar de data

Best practices voor visualisaties in R

Standaardplots

Histogram

  • Goed voor één verdeling tegelijk
  • In dit hoofdstuk

boxplot

  • Voor meerdere verdelingen vergelijken
  • Volgend hoofdstuk

Best practices voor visualisaties in R

Maryland-snelheidsdata

md_speeding

Best practices voor visualisaties in R

Een histogram maken in ggplot2

  • geom_histogram()
  • Bakt je data automatisch in bins
  • Geef alleen x-aes op
md_speeding %>% 
  filter(vehicle_color == 'BLUE') %>% 
  ggplot(aes(x = speed)) +
  geom_histogram()
Best practices voor visualisaties in R

Best practices voor visualisaties in R

Laten we histogrammen maken!

Best practices voor visualisaties in R

Preparing Video For Download...