Statistieken: sum en quantile

Gevorderde datavisualisatie met ggplot2

Rick Scavetta

Founder, Scavetta Academy

Herhaling uit cursus 1

Oorzaak van overplotting Oplossingen
1. Grote datasets Alpha-blending, holle cirkels, puntgrootte
2. Uitgelijnde waarden op één as Zoals boven, plus positie wijzigen
3. Lage precisie data Positie: jitter
4. Gehele-getallen-data Positie: jitter
Gevorderde datavisualisatie met ggplot2

Tel aantallen om overplotting te vermijden

Oorzaak van overplotting Oplossingen Hier...
1. Grote datasets Alpha-blending, holle cirkels, puntgrootte
2. Uitgelijnde waarden op één as Zoals boven, plus positie wijzigen
3. Lage precisie data Positie: jitter geom_count()
4. Gehele-getallen-data Positie: jitter geom_count()
Gevorderde datavisualisatie met ggplot2

Lage precisie (& gehele getallen) data

p <- ggplot(iris, aes(Sepal.Length, 
                      Sepal.Width))

p + geom_point()

Gevorderde datavisualisatie met ggplot2

Jitter kan een verkeerd beeld geven

p + geom_jitter(alpha = 0.5,
                width = 0.1,
                height = 0.1)

Gevorderde datavisualisatie met ggplot2

geom_count()

p + 
  geom_count()

Gevorderde datavisualisatie met ggplot2

De link tussen geom/stat

geom_ stat_
geom_count() stat_sum()
Gevorderde datavisualisatie met ggplot2

stat_sum()

p + 
  stat_sum()

Gevorderde datavisualisatie met ggplot2

Overplotting kan nog steeds een probleem zijn

ggplot(iris, aes(Sepal.Length,
                 Sepal.Width, 
                 color = Species)) + 
  geom_count(alpha = 0.4)

Gevorderde datavisualisatie met ggplot2

geom_quantile()

ggplot(iris, aes(Sepal.Length,
                 Sepal.Width, 
                 color = Species)) + 
  geom_count(alpha = 0.4)
Gevorderde datavisualisatie met ggplot2

Omgaan met heteroscedasticiteit

library(AER)
data(Journals)

p <- ggplot(Journals, 
            aes(log(price/citations), 
                log(subs))) +
  geom_point(alpha = 0.5) +
  labs(...)

p

Gevorderde datavisualisatie met ggplot2

geom_quantile gebruiken

p +
  geom_quantile(quantiles = 
                c(0.05, 0.50, 0.95))

Gevorderde datavisualisatie met ggplot2

De link tussen geom/stat

geom_ stat_
geom_count() stat_sum()
geom_quantile() stat_quantile()
Gevorderde datavisualisatie met ggplot2

Klaar voor oefeningen!

Gevorderde datavisualisatie met ggplot2

Preparing Video For Download...