Korrelation

Einführung in die Statistik in Python

Maggie Matsui

Content Developer, DataCamp

Korrelation zwischen zwei Variablen

Streudiagramm der Schlafgewohnheiten von Säugetieren, das den Gesamtschlaf pro Tag und den REM-Schlaf pro Tag darstellt

  • x = erklärende/unabhängige Variable
  • y = Reaktion/abhängige Variable
Einführung in die Statistik in Python

Korrelationskoeffizient

  • Quantifiziert die lineare Beziehung zwischen zwei Variablen
  • Zahl zwischen -1 und 1
  • Die Größe entspricht der Stärke der Korrelation
  • Das Vorzeichen (+ oder -) entspricht der Richtung der Korrelation
Einführung in die Statistik in Python

Größe = Stärke der Beziehung

0,99 (sehr starke Korrelation)

Streudiagramm mit Punkten, die sehr nahe an einer unsichtbaren Linie liegen

Einführung in die Statistik in Python

Größe = Stärke der Beziehung

0,99 (sehr starke Korrelation)

Streudiagramm mit Punkten, die sehr nahe an einer unsichtbaren Linie liegen

             0,75 (starke Korrelation)

Streudiagramm mit Punkten, die weiter von der unsichtbaren Linie entfernt sind

Einführung in die Statistik in Python

Größe = Stärke der Beziehung

0,56 (moderate Korrelation)

Streudiagramm mit Punkten, die noch weiter von der unsichtbaren Linie entfernt sind

Einführung in die Statistik in Python

Größe = Stärke der Beziehung

0,56 (moderate Korrelation)

Streudiagramm mit Punkten, die noch weiter von der unsichtbaren Linie entfernt sind

            0,21 (schwache Korrelation)

Streudiagramm mit Punkten, die fast völlig zusammenhangslos verstreut aussehen

Einführung in die Statistik in Python

Größe = Stärke der Beziehung

0,04 (keine Korrelation)

Streudiagramm mit Punkten, die völlig zusammenhangslos verstreut aussehen

  • Die Kenntnis des Wertes von x sagt uns nichts über yaus
Einführung in die Statistik in Python

Vorzeichen = Richtung

0,75:  wenn x steigt, steigt y

Streudiagramm, bei dem y mit x zunimmt

-0,75:  wenn x steigt, sinkt y

Streudiagramm, bei dem y mit steigendem x abnimmt

Einführung in die Statistik in Python

Beziehungen visualisieren

import seaborn as sns

sns.scatterplot(x="sleep_total", y="sleep_rem", data=msleep)
plt.show()

Streudiagramm von sleep_rem vs. sleep_total

Einführung in die Statistik in Python

Hinzufügen einer Trendlinie

import seaborn as sns
sns.lmplot(x="sleep_total", y="sleep_rem", data=msleep, ci=None)

plt.show()

Streudiagramm von sleep_rem vs. sleep_total mit linearer Trendlinie

Einführung in die Statistik in Python

Berechnung der Korrelation

msleep['sleep_total'].corr(msleep['sleep_rem'])
0.751755

 

msleep['sleep_rem'].corr(msleep['sleep_total'])
0.751755
Einführung in die Statistik in Python

Viele Wege zur Berechnung der Korrelation

  • In diesem Kurs verwendet: Pearson Produkt-Moment-Korrelation   ($r$)
    • Am häufigsten
    • $\bar{x} =$ Mittelwert von $x$
    • $\sigma_x =$ Standardabweichung von $x$

$$ r = \frac{1}{n - 1} \sum_{i=1}^{n} \frac{(x_i - \bar{x})(y_i - \bar{y})}{\sigma_x \cdot \sigma_y}$$

  • Variationen zu dieser Formel:
    • Kendall's Tau
    • Spearman's Rho
Einführung in die Statistik in Python

Lass uns üben!

Einführung in die Statistik in Python

Preparing Video For Download...