Stats : sum et quantile

Visualisation de données intermédiaire avec ggplot2

Rick Scavetta

Founder, Scavetta Academy

Rappel du cours 1

Cause de surimposition Solutions
1. Jeux de données volumineux Alpha-blending, cercles creux, taille des points
2. Valeurs alignées sur un seul axe Comme ci-dessus, plus changer la position
3. Données peu précises Position : jitter
4. Données entières Position : jitter
Visualisation de données intermédiaire avec ggplot2

Compter pour éviter la surimposition

Cause de surimposition Solutions Ici...
1. Jeux de données volumineux Alpha-blending, cercles creux, taille des points
2. Valeurs alignées sur un seul axe Comme ci-dessus, plus changer la position
3. Données peu précises Position : jitter geom_count()
4. Données entières Position : jitter geom_count()
Visualisation de données intermédiaire avec ggplot2

Données peu précises (et entières)

p <- ggplot(iris, aes(Sepal.Length, 
                      Sepal.Width))

p + geom_point()

Visualisation de données intermédiaire avec ggplot2

Le jitter peut induire en erreur

p + geom_jitter(alpha = 0.5,
                width = 0.1,
                height = 0.1)

Visualisation de données intermédiaire avec ggplot2

geom_count()

p + 
  geom_count()

Visualisation de données intermédiaire avec ggplot2

Lien geom/stat

geom_ stat_
geom_count() stat_sum()
Visualisation de données intermédiaire avec ggplot2

stat_sum()

p + 
  stat_sum()

Visualisation de données intermédiaire avec ggplot2

La surimposition reste possible

ggplot(iris, aes(Sepal.Length,
                 Sepal.Width, 
                 color = Species)) + 
  geom_count(alpha = 0.4)

Visualisation de données intermédiaire avec ggplot2

geom_quantile()

ggplot(iris, aes(Sepal.Length,
                 Sepal.Width, 
                 color = Species)) + 
  geom_count(alpha = 0.4)
Visualisation de données intermédiaire avec ggplot2

Gérer l’hétéroscédasticité

library(AER)
data(Journals)

p <- ggplot(Journals, 
            aes(log(price/citations), 
                log(subs))) +
  geom_point(alpha = 0.5) +
  labs(...)

p

Visualisation de données intermédiaire avec ggplot2

Utiliser geom_quantile

p +
  geom_quantile(quantiles = 
                c(0.05, 0.50, 0.95))

Visualisation de données intermédiaire avec ggplot2

Lien geom/stat

geom_ stat_
geom_count() stat_sum()
geom_quantile() stat_quantile()
Visualisation de données intermédiaire avec ggplot2

Prêt pour les exercices !

Visualisation de données intermédiaire avec ggplot2

Preparing Video For Download...