Grenzen bei der Korrelation

Einführung in die Statistik in R

Maggie Matsui

Content Developer, DataCamp

Nicht-lineare Beziehungen

Streudiagramm von Variablen mit einer quadratischen Beziehung

$$r = 0.18$$

Einführung in die Statistik in R

Nicht-lineare Beziehungen

Was wir sehen:

Streudiagramm von Variablen mit einem quadratischen Zusammenhang mit quadratischer Trendlinie

Was der Korrelationskoeffizient sieht:

Streudiagramm von Variablen mit einem quadratischen Zusammenhang mit einer linearen Trendlinie

Einführung in die Statistik in R

Die Korrelation berücksichtigt nur lineare Beziehungen

Korrelation sollte nicht blind verwendet werden

cor(df$x, df$y)
0.1786163

Visualisiere deine Daten immer

Streudiagramm von Variablen mit einer quadratischen Beziehung

Einführung in die Statistik in R

Daten zum Schlaf von Säugetieren

msleep
   name                       vore  sleep_total awake  bodywt
 1 Cheetah                    carni        12.1  11.9  50    
 2 Owl monkey                 omni         17     7     0.48 
 3 Mountain beaver            herbi        14.4   9.6   1.35 
 4 Greater short-tailed shrew omni         14.9   9.1   0.019
 5 Cow                        herbi         4    20   600    
 6 Three-toed sloth           herbi        14.4   9.6   3.85 
 ... 
Einführung in die Statistik in R

Körpergewicht vs. Wachzeit

Streudiagramm von Körpergewicht vs. Wachzeit

cor(msleep$bodywt, msleep$awake)
0.3119801
Einführung in die Statistik in R

Verteilung des Körpergewichts

Histogramm der Körpergewichtsvariable

Einführung in die Statistik in R

Log-Transformation

msleep %>%
  mutate(log_bodywt = log(bodywt)) %>%

ggplot(aes(log_bodywt, awake)) + geom_point() + geom_smooth(method = "lm", se = FALSE)

 

cor(msleep$log_bodywt, msleep$awake)
0.5687943

Streudiagramm von Log-Körpergewicht vs. Wachzeit

Einführung in die Statistik in R

Andere Transformationen

  • Log-Transformation (log(x))
  • Quadratwurzel-Transformation (sqrt(x))
  • Reziproke Transformation (1 / x)

  • Kombinationen davon, z. B.:

    • log(x) und log(y)
    • sqrt(x) und 1 / y
Einführung in die Statistik in R

Wozu verwendet man eine Transformation?

  • Bestimmte statistische Methoden setzen voraus, dass die Variablen eine lineare Beziehung haben
    • Korrelationskoeffizient
    • Lineare Regression
Einführung in die Statistik in R

Korrelation bedeutet nicht gleich Kausalität

xkorreliert mit y bedeutet nicht, dass x`y` verursacht

Streudiagramm des Pro-Kopf-Verbrauchs von Margarine in den USA und der Scheidungsrate in Maine. Die Variablen sind hoch korreliert mit einem Korrelationskoeffizienten von 0,99

Einführung in die Statistik in R

Verzerrungen

  Der Konsum von Kaffee (x) deutet auf Lungenkrebs (y) hin

Einführung in die Statistik in R

Verzerrungen

  Der Konsum von Kaffee (x) deutet hin auf Lungenkrebs (y) mit Rauchen (Störfaktor) oben

Einführung in die Statistik in R

Verzerrungen

  Der Konsum von Kaffee (x) deutet auf Lungenkrebs (y) mit Rauchen (Störfaktor) hin. Doppelpfeil zwischen Rauchen und Kaffeetrinken, beschriftet mit "Assoziation".

Einführung in die Statistik in R

Verzerrungen

  Der Konsum von Kaffee (x) deutet auf Lungenkrebs (y) mit Rauchen (Störfaktor) hin. Doppelpfeil zwischen Rauchen und Kaffeetrinken, beschriftet mit "Assoziation". Pfeil von Rauchen zu Lungenkrebs, beschriftet mit "Kausalität"

Einführung in die Statistik in R

Verzerrungen

  Konsum von Kaffee (x) mit Doppelpfeil zu Lungenkrebs (y), beschriftet mit "Assoziation". Doppelpfeil zwischen Rauchen und Kaffeetrinken, beschriftet mit "Assoziation". Pfeil von Rauchen zu Lungenkrebs, beschriftet mit "Kausalität".

  Die Feiertage (x) wirken sich auf die Einzelhandelsumsätze (y) aus. Sonderangebote (Störfaktor) hat einen Doppelpfeil zu Feiertagen und einen Einzelpfeil zu Einzelhandelsumsätzen.

Einführung in die Statistik in R

Lass uns üben!

Einführung in die Statistik in R

Preparing Video For Download...