Intro tot distributies vergelijken

Best practices voor visualisaties in R

Nick Strayer

Instructor

Waarom distributies vergelijken?

  • Controleer gebalanceerde groepen
  • Voor eerlijke vergelijking

Best practices voor visualisaties in R

Waarom geen gefacetteerde histogrammen?

ggplot(md_speeding, aes(x = speed_over)) + 
  geom_histogram() +
  facet_grid(vehicle_color ~ .)

Best practices voor visualisaties in R

De boxplot

 

Best practices voor visualisaties in R

Voordelen boxplot

  • Bekend
  • Veel nuttige samenvattingen

Best practices voor visualisaties in R

Nadelen boxplot

  • Laat de data zien!

Best practices voor visualisaties in R

Een eenvoudige toevoeging

  • geom_jitter() toont ruwe punten, verschoven om overlap te vermijden.
  • Leg onder je geom_boxplot().
md_speeding %>% 
  filter(vehicle_color == 'BLUE') %>%
  ggplot(aes(x = gender, y = speed)) +
    # Draw points behind 
    geom_jitter(alpha = 0.3, color = 'steelblue') + 
    # Make transparent
    geom_boxplot(alpha = 0) + 
    labs(title = 'Distribution of speed for blue cars by gender')
Best practices voor visualisaties in R

Best practices voor visualisaties in R

Laten we wat distributies vergelijken!

Best practices voor visualisaties in R

Preparing Video For Download...