Die Geschichte zweier Variablen

Einführung in Regression mit R

Richie Cotton

Data Evangelist at DataCamp

Daten zur schwedischen Kfz-Versicherung

  • Jede Zeile steht für eine Region in Schweden.
  • Es gibt 63 Zeilen.
n_claims total_payment_sek
108 392,5
19 46,2
13 15,7
124 422,2
40 119,4
... ...
Einführung in Regression mit R

Deskriptive Statistik

library(dplyr)
swedish_motor_insurance %>% 
  summarize_all(mean)
# A tibble: 1 x 2
  n_claims total_payment_sek
     <dbl>             <dbl>
1     22.9              98.2
swedish_motor_insurance %>% 
  summarize(
    correlation = cor(n_claims, total_payment_sek)
  )
# A tibble: 1 x 1
  correlation
        <dbl>
1       0.881
Einführung in Regression mit R

Was ist Regression?

  • Statistische Modelle, um die Beziehung zwischen einer Antwortvariablen und einigen erklärenden Variablen zu untersuchen.
  • Mit den Werten der erklärenden Variablen kannst du die Werte der Antwortvariablen vorhersagen.
n_claims total_payment_sek
108 392,5
19 46,2
13 15,7
124 422,2
40 119,4
200 ???
Einführung in Regression mit R

Jargon

Antwortvariable (auch als abhängige Variable bezeichnet)

Die Variable, die du vorhersagen willst.

Erklärende Variablen (auch bekannt als unabhängige Variablen)

Die Variablen, die erklären, wie sich die Antwortvariable ändern wird.

Einführung in Regression mit R

Lineare und logistische Regression

Lineare Regression

  • Die Antwortvariable ist ein Zahl.

Logistische Regression

  • Die Antwortvariable ist logistisch.

Einfache lineare/logistische Regression

  • Es gibt nur eine erklärende Variable.
Einführung in Regression mit R

Visualisierung von Variablenpaaren

library(ggplot2)

ggplot(
  swedish_motor_insurance, 
  aes(n_claims, total_payment_sek)
) +
  geom_point()

Ein Streudiagramm der Gesamtzahlung im Vergleich zur Anzahl der Schadensfälle. Die Zahlung wird höher, je mehr Ansprüche man hat.

Einführung in Regression mit R

Hinzufügen einer linearer Trendlinie

library(ggplot2)

ggplot(
  swedish_motor_insurance, 
  aes(n_claims, total_payment_sek)
) +
  geom_point() +
  geom_smooth(
    method = "lm", 
    se = FALSE
  )

Das gleiche Streudiagramm wie vorher, jetzt mit einer zusätzlichen Trendlinie, die durch lineare Regression berechnet wurde. Es passt ganz gut zu den Daten.

Einführung in Regression mit R

Ablauf des Kurses

Kapitel 1

Lineare Regressionsmodelle anschaulich darstellen und anpassen.

Kapitel 2

Vorhersagen anhand linearer Regressionsmodelle erstellen und die Modellkoeffizienten verstehen.

Kapitel 3

Die Qualität des linearen Regressionsmodells analysieren.

Kapitel 4

Das Gleiche aber diesmal mit logistischen Regressionsmodellen

Einführung in Regression mit R

Lass uns üben!

Einführung in Regression mit R

Preparing Video For Download...