De kernel-dichtheidsschatting

Best practices voor visualisaties in R

Nick Strayer

Instructor

Waar histogrammen moeite mee hebben

  • Data met meerdere sterke pieken
  • Weinig data

Best practices voor visualisaties in R

Kernel-dichtheidsplots

  • Plaats een "kernel" op elk datapunt
  • Tel de hoogtes van overlappende kernels op

Best practices voor visualisaties in R

Een KDE maken in ggplot

  • Vervang geom_histogram() door geom_density()
sample_n(md_speeding, 100) %>%
  ggplot(aes(x = percentage_over_limit)) +
  # Swap out geom_histogram() 
    geom_density(
      # Fill in curve with color
      fill = 'steelblue',
      # Standard deviation of kernel
      bw = 8 
    )
Best practices voor visualisaties in R

Best practices voor visualisaties in R

Een nieuwe breedte om op te letten

  • Stel de standaardafwijking in van de kernel op elk punt

Best practices voor visualisaties in R

Best practices voor visualisaties in R

Toon alle data

Gebruik geom_rug() om alle data onder de KDE te tonen met lijntjes

p <-sample_n(md_speeding, 100) %>%
  ggplot(aes(x = percentage_over_limit)) +
  geom_density(
    fill = 'steelblue', # fill in curve with color
    bw = 8 # standard deviation of kernel
  ) 

p + geom_rug(alpha = 0.4)
Best practices voor visualisaties in R

Best practices voor visualisaties in R

Laten we wat gaussians stapelen!

Best practices voor visualisaties in R

Preparing Video For Download...