Regression zur Mitte

Einführung in Regression mit R

Richie Cotton

Data Evangelist

Das Konzept

  • Antwortwert = angepasster Wert + Residuum
  • „Das, was du erklärt hast.“ + „Das, was du nicht erklären konntest.“
  • Residuen existieren aufgrund von Problemen im Modell und zugrundeliegendem Zufall.
  • Extremwerte sind oft bedingt durch Zufall.
  • Die Regression zur Mitte bedeutet, dass Extremwerte nicht auf ewig so extrem bleiben.
Einführung in Regression mit R

Pearsons Vater-Sohn-Datensatz

  • 1078 Vater-Sohn-Paare
  • Haben große Väter große Söhne?
father_height_cm son_height_cm
165,2 151,8
160,7 160,6
165,0 160,9
167,0 159,5
155,3 163,3
... ...
1 Adaptiert aus https://www.rdocumentation.org/packages/UsingR/topics/father.son
Einführung in Regression mit R

Streudiagramm

plt_son_vs_father <- ggplot(
  father_son, 
  aes(father_height_cm, son_height_cm)
) +
  geom_point() +
  geom_abline(color = "green", size = 1) +
  coord_fixed()

Ein Streudiagramm, das die Körpergröße der Söhne im Vergleich zur Körpergröße der Väter zeigt, mit einer Linie, wo Vater und Sohn gleich groß wären. Je größer die Väter, desto größer auch die Söhne.

Einführung in Regression mit R

Hinzufügen einer Regressionsgeraden

plt_son_vs_father +
  geom_smooth(method = "lm", se = FALSE)

Das Streudiagramm der Körpergrößen der Söhne im Vergleich zu denen der Väter, mit einer linearen Trendlinie versehen. Die Trendlinie ist weniger steil als die Linie, bei der Väter und Söhne gleich groß wären.

Einführung in Regression mit R

Eine Regression durchführen

mdl_son_vs_father <- lm(
  son_height_cm ~ father_height_cm, 
  data = father_son
)
Call:
lm(formula = son_height_cm ~ father_height_cm, data = father_son)

Coefficients:
     (Intercept)  father_height_cm  
          86.072             0.514
Einführung in Regression mit R

Vorhersagen

really_tall_father <- tibble(
  father_height_cm = 190
)
predict(mdl_son_vs_father, really_tall_father)
183.7
really_short_father <- tibble(
  father_height_cm = 150
)
predict(mdl_son_vs_father, really_short_father)
163.2
Einführung in Regression mit R

Lass uns üben!

Einführung in Regression mit R

Preparing Video For Download...