Een verhaal van twee variabelen

Introductie tot regressie in R

Richie Cotton

Data Evangelist at DataCamp

Zweedse autoverzekeringsdata

  • Elke rij is één geografische regio in Zweden.
  • Er zijn 63 rijen.
n_claims total_payment_sek
108 392.5
19 46.2
13 15.7
124 422.2
40 119.4
... ...
Introductie tot regressie in R

Beschrijvende statistiek

library(dplyr)
swedish_motor_insurance %>% 
  summarize_all(mean)
# A tibble: 1 x 2
  n_claims total_payment_sek
     <dbl>             <dbl>
1     22.9              98.2
swedish_motor_insurance %>% 
  summarize(
    correlation = cor(n_claims, total_payment_sek)
  )
# A tibble: 1 x 1
  correlation
        <dbl>
1       0.881
Introductie tot regressie in R

Wat is regressie?

  • Statistische modellen om de relatie tussen een responsvariabele en verklarende variabelen te verkennen.
  • Met waarden van verklarende variabelen kun je de respons voorspellen.
n_claims total_payment_sek
108 392.5
19 46.2
13 15.7
124 422.2
40 119.4
200 ???
Introductie tot regressie in R

Jargon

Responsvariabele (ook wel afhankelijke variabele)

De variabele die je wilt voorspellen.

Verklarende variabelen (ook wel onafhankelijke variabelen)

De variabelen die verklaren hoe de responsvariabele verandert.

Introductie tot regressie in R

Lineaire en logistische regressie

Lineaire regressie

  • De responsvariabele is numeriek.

Logistische regressie

  • De responsvariabele is logisch.

Eenvoudige lineaire/logistische regressie

  • Er is maar één verklarende variabele.
Introductie tot regressie in R

Parenvan variabelen visualiseren

library(ggplot2)

ggplot(
  swedish_motor_insurance, 
  aes(n_claims, total_payment_sek)
) +
  geom_point()

Een spreidingsdiagram van de totale uitbetaling versus het aantal claims. De uitbetaling stijgt naarmate het aantal claims toeneemt.

Introductie tot regressie in R

Een lineaire trendlijn toevoegen

library(ggplot2)

ggplot(
  swedish_motor_insurance, 
  aes(n_claims, total_payment_sek)
) +
  geom_point() +
  geom_smooth(
    method = "lm", 
    se = FALSE
  )

Hetzelfde spreidingsdiagram als eerder, nu met een extra trendlijn berekend via lineaire regressie. Deze past redelijk bij de data.

Introductie tot regressie in R

Cursusopbouw

Hoofdstuk 1

Lineaire regressiemodellen visualiseren en fitten.

Hoofdstuk 2

Voorspellen met lineaire modellen en modelcoëfficiënten begrijpen.

Hoofdstuk 3

De kwaliteit van het lineaire regressiemodel beoordelen.

Hoofdstuk 4

Hetzelfde, maar met logistische regressiemodellen.

Introductie tot regressie in R

Laten we oefenen!

Introductie tot regressie in R

Preparing Video For Download...