Variables explicatives catégorielles

Introduction à la régression dans R

Richie Cotton

Data Evangelist at DataCamp

Ensemble de données sur les poissons

  • Chaque ligne représente un poisson.
  • L’ensemble de données contient 128 lignes.
  • Il existe quatre espèces de poissons.
species mass_g
Brème commune 242,0
Perche 5,9
Brochet 200,0
Gardon 40,0
... ...
Introduction à la régression dans R

Visualisation d'une variable numérique et d'une variable catégorielle

library(ggplot2)

ggplot(fish, aes(mass_g)) +
  geom_histogram(bins = 9) +
  facet_wrap(vars(species))

Histogramme à facettes représentant le nombre de poissons en fonction de leur poids. Chaque panneau contient une espèce : brème commune, perche, brochet ou gardon.

Introduction à la régression dans R

Statistiques sommaires : masse moyenne selon les espèces

fish %>% 
  group_by(species) %>% 
  summarize(mean_mass_g = mean(mass_g))
# A tibble: 4 x 2
  species mean_mass_g
  <chr>         <dbl>
1 Bream          618.
2 Perch          382.
3 Pike           719.
4 Roach          152.
Introduction à la régression dans R

Régression linéaire

lm(mass_g ~ species, data = fish)
Call:
lm(formula = mass_g ~ species, data = fish)

Coefficients:
 (Intercept)  speciesPerch   speciesPike  speciesRoach  
       617.8        -235.6         100.9        -465.8 
Introduction à la régression dans R

Aucune ordonnée à l’origine

lm(mass_g ~ species + 0, data = fish)
Call:
lm(formula = mass_g ~ species + 0, data = fish)

Coefficients:
speciesBream  speciesPerch   speciesPike  speciesRoach  
       617.8         382.2         718.7         152.0 
Introduction à la régression dans R

Passons à la pratique !

Introduction à la régression dans R

Preparing Video For Download...