Korrelation

Einführung in die Statistik in R

Maggie Matsui

Content Developer, DataCamp

Korrelation zwischen zwei Variablen

Streudiagramm der Schlafgewohnheiten von Säugetieren, das den Gesamtschlaf pro Tag und den REM-Schlaf pro Tag darstellt

  • x = erklärende/unabhängige Variable
  • y = Reaktion/abhängige Variable
Einführung in die Statistik in R

Korrelationskoeffizient

  • Quantifiziert die lineare Beziehung zwischen zwei Variablen
  • Zahl zwischen -1 und 1
  • Das Ausmaß entspricht der Stärke der Korrelation
  • Das Vorzeichen (+ oder -) entspricht der Richtung der Beziehung
Einführung in die Statistik in R

Ausmaß = Stärke der Beziehung

0,99 (sehr starke Korrelation)

Streudiagramm mit Punkten, die sehr nahe an einer unsichtbaren Linie liegen

Einführung in die Statistik in R

Ausmaß = Stärke der Beziehung

0,99 (sehr starke Korrelation)

Streudiagramm mit Punkten, die sehr nahe an einer unsichtbaren Linie liegen

0,75 (starke Korrelation)

Streudiagramm mit Punkten, die weiter von der unsichtbaren Linie entfernt sind

Einführung in die Statistik in R

Ausmaß = Stärke der Beziehung

0,56 (mäßige Korrelation)

Streudiagramm mit Punkten, die noch weiter von der unsichtbaren Linie entfernt sind

Einführung in die Statistik in R

Ausmaß = Stärke der Beziehung

0,56 (mäßige Korrelation)

Streudiagramm mit Punkten, die noch weiter von der unsichtbaren Linie entfernt sind

0,21 (schwache Korrelation)

Streudiagramm mit Punkten, die fast völlig zusammenhangslos verstreut aussehen

Einführung in die Statistik in R

Ausmaß = Stärke der Beziehung

0,04 (keine Korrelation)

Streudiagramm mit Punkten, die völlig zusammenhangslos verstreut aussehen

  • Die Kenntnis des Wertes von x sagt uns nichts über yaus
Einführung in die Statistik in R

Vorzeichen = Richtung

0,75: Wenn x steigt, steigt y

Streudiagramm, bei dem y mit x zunimmt

-0,75: Wenn x steigt, sinkt y

Streudiagramm, bei dem y mit steigendem x abnimmt

Einführung in die Statistik in R

Beziehungen visualisieren

ggplot(df, aes(x, y)) +
  geom_point()

Streudiagramm, bei dem y mit steigendem x abnimmt

Einführung in die Statistik in R

Hinzufügen einer Trendlinie

ggplot(df, aes(x, y)) +
  geom_point() +

geom_smooth(method = "lm", se = FALSE)

Streudiagramm, bei dem y mit steigendem x abnimmt, mit Trendlinie

Einführung in die Statistik in R

Berechnung der Korrelation

cor(df$x, df$y)
-0.7472765

 

cor(df$y, df$x)
-0.7472765
Einführung in die Statistik in R

Zusammenhang mit fehlenden Werten

df$x
-3.2508382  -9.1599807   3.4515013   4.1505899          NA   11.9806140   ...
cor(df$x, df$y)
NA
cor(df$x, df$y, use = "pairwise.complete.obs")
-0.7471757
Einführung in die Statistik in R

Viele Wege zur Berechnung der Korrelation

  • In diesem Kurs verwendet: Pearson Produkt-Moment-Korrelation   ($r$)
    • Am häufigsten verwendet
    • $\bar{x} =$ Mittelwert von $x$

$$ r =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} $$

  • Varianten dieser Formel:
    • Kendall's Tau
    • Spearman’sche Rangkorrelationskoeffizient
Einführung in die Statistik in R

Lass uns üben!

Einführung in die Statistik in R

Preparing Video For Download...