Lineaire regressie met evenwijdige hellingen

Intermediary Regression in R

Richie Cotton

Data Evangelist at DataCamp

De vorige cursus

Deze cursus bouwt voort op Introduction to Regression in R.

Intermediary Regression in R

Van simpele naar meervoudige regressie

Meervoudige regressie is een regressiemodel met meer dan één verklarende variabele.

Meer verklarende variabelen geven meer inzicht en betere voorspellingen.

Intermediary Regression in R

Cursusinhoud

Hoofdstuk 1

  • Regressie met "evenwijdige hellingen"

Hoofdstuk 2

  • Interacties
  • Paradox van Simpson

Hoofdstuk 3

  • Meer verklarende variabelen
  • Hoe lineaire regressie werkt

Hoofdstuk 4

  • Meervoudige logistische regressie
  • De logistische verdeling
  • Hoe logistische regressie werkt
Intermediary Regression in R

De fish-dataset

mass_g length_cm species
242.0 23.2 Bream
5.9 7.5 Perch
200.0 30.0 Pike
40.0 12.9 Roach
  • Elke rij is een vis
  • mass_g is de responsvariabele
  • 1 numerieke, 1 categorische verklarende variabele
Intermediary Regression in R

Eén verklarende variabele tegelijk

mdl_mass_vs_length <- lm(mass_g ~ length_cm, data = fish)
Call:
lm(formula = mass_g ~ length_cm, data = fish)

Coefficients:
(Intercept)    length_cm  
     -536.2         34.9
  • 1 interceptcoëfficiënt
  • 1 hellingscoëfficiënt
mdl_mass_vs_species <- lm(mass_g ~ species + 0, data = fish)
Call:
lm(formula = mass_g ~ species + 0, data = fish)

Coefficients:
speciesBream  speciesPerch   speciesPike  speciesRoach  
       617.8         382.2         718.7         152.0
  • 1 interceptcoëfficiënt per categorie
Intermediary Regression in R

Beide variabelen tegelijk

mdl_mass_vs_both <- lm(mass_g ~ length_cm + species + 0, data = fish)
Call:
lm(formula = mass_g ~ length_cm + species + 0, data = fish)

Coefficients:
   length_cm  speciesBream  speciesPerch   speciesPike  speciesRoach  
       42.57       -672.24       -713.29      -1089.46       -726.78 
  • 1 hellingscoëfficiënt
  • 1 interceptcoëfficiënt per categorie
Intermediary Regression in R

Coëfficiënten vergelijken

coefficients(mdl_mass_vs_length)
(Intercept)   length_cm 
     -536.2        34.9
coefficients(mdl_mass_vs_species)
speciesBream speciesPerch  speciesPike speciesRoach 
       617.8        382.2        718.7        152.0
coefficients(mdl_mass_vs_both)
length_cm speciesBream speciesPerch  speciesPike speciesRoach 
    42.57      -672.24      -713.29     -1089.46      -726.78 
Intermediary Regression in R

Visualisatie: 1 numerieke verklarende var

library(ggplot2)

ggplot(fish, aes(length_cm, mass_g)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

spreiding-vis-massa-vs-lengte.png

Intermediary Regression in R

Visualisatie: 1 categorische verklarende var

ggplot(fish, aes(species, mass_g)) +
  geom_boxplot() + 
  stat_summary(fun.y = mean, shape = 15)

spreiding-vis-massa-vs-soort.png

Intermediary Regression in R

Visualisatie: beide verklarende vars

library(moderndive)

ggplot(fish, aes(length_cm, mass_g, color = species)) +
  geom_point() +
  geom_parallel_slopes(se = FALSE)

spreiding-vis-massa-vs-beide.png

Intermediary Regression in R

Laten we oefenen!

Intermediary Regression in R

Preparing Video For Download...