Vorbehalte bei der Korrelation

Einführung in die Statistik in Python

Maggie Matsui

Content Developer, DataCamp

Nicht-lineare Beziehungen

Streudiagramm von Variablen mit einer quadratischen Beziehung

$$r = 0.18$$

Einführung in die Statistik in Python

Nicht-lineare Beziehungen

Was wir sehen:

Streudiagramm von Variablen mit einem quadratischen Zusammenhang mit quadratischer Trendlinie

Was der Korrelationskoeffizient sieht:

Streudiagramm von Variablen mit einem quadratischen Zusammenhang mit einer linearen Trendlinie

Einführung in die Statistik in Python

Die Korrelation berücksichtigt nur lineare Beziehungen

Korrelation sollte nicht blind verwendet werden

df['x'].corr(df['y'])
0.081094

Visualisiere deine Daten immer

Streudiagramm von Variablen mit einer quadratischen Beziehung

Einführung in die Statistik in Python

Daten zum Schlaf von Säugetieren

print(msleep)
                 name       genus   vore         order  ... sleep_cycle  awake  brainwt   bodywt
1             Cheetah    Acinonyx  carni     Carnivora  ...         NaN   11.9      NaN   50.000
2          Owl monkey       Aotus   omni      Primates  ...         NaN    7.0  0.01550    0.480
3     Mountain beaver  Aplodontia  herbi      Rodentia  ...         NaN    9.6      NaN    1.350
4 Greater short-ta...     Blarina   omni  Soricomorpha  ...    0.133333    9.1  0.00029    0.019
5                 Cow         Bos  herbi  Artiodactyla  ...    0.666667   20.0  0.42300  600.000
..                ...         ...    ...           ...  ...         ...    ...      ...      ...
79         Tree shrew      Tupaia   omni    Scandentia  ...    0.233333   15.1  0.00250    0.104
80 Bottle-nosed do...    Tursiops  carni       Cetacea  ...         NaN   18.8      NaN  173.330
81              Genet     Genetta  carni     Carnivora  ...         NaN   17.7  0.01750    2.000
82         Arctic fox      Vulpes  carni     Carnivora  ...         NaN   11.5  0.04450    3.380
83            Red fox      Vulpes  carni     Carnivora  ...    0.350000   14.2  0.05040    4.230
Einführung in die Statistik in Python

Körpergewicht vs. Wachzeit

Streudiagramm von Körpergewicht vs. Wachzeit

msleep['bodywt'].corr(msleep['awake'])
0.3119801
Einführung in die Statistik in Python

Verteilung des Körpergewichts

Histogramm der Körpergewichtsvariable

Einführung in die Statistik in Python

Log-Transformation

msleep['log_bodywt'] = np.log(msleep['bodywt'])

sns.lmplot(x='log_bodywt', y='awake', data=msleep, ci=None) plt.show()
msleep['log_bodywt'].corr(msleep['awake'])
0.5687943

Streudiagramm von Log-Körpergewicht vs. Wachzeit

Einführung in die Statistik in Python

Andere Transformationen

  • Log-Transformation (log(x))
  • Quadratwurzel-Transformation (sqrt(x))
  • Reziproke Transformation (1 / x)

  • Kombinationen davon, z. B.:

    • log(x) und log(y)
    • sqrt(x) und 1 / y
Einführung in die Statistik in Python

Warum nutzt man eine Transformation?

  • Bestimmte statistische Methoden setzen voraus, dass die Variablen eine lineare Beziehung haben
    • Korrelationskoeffizient
    • Lineare Regression

 

Einführung in die lineare Modellierung in Python

Einführung in die Statistik in Python

Korrelation bedeutet nicht gleich Kausalität

                Wennx mit ykorreliert, bedeutet das nicht, dass x yverursacht

Streudiagramm des Pro-Kopf-Verbrauchs von Margarine in den USA und der Scheidungsrate in Maine. Die Variablen sind hoch korreliert mit einem Korrelationskoeffizienten von 0,99

Einführung in die Statistik in Python

Verzerrungen

  Der Konsum von Kaffee (x) deutet auf Lungenkrebs (y) hin

Einführung in die Statistik in Python

Verzerrungen

  Der Konsum von Kaffee (x) deutet hin auf Lungenkrebs (y) mit Rauchen (Störfaktor) oben

Einführung in die Statistik in Python

Verzerrungen

  Der Konsum von Kaffee (x) deutet auf Lungenkrebs (y) mit Rauchen (Störfaktor) hin. Doppelpfeil zwischen Rauchen und Kaffeetrinken, beschriftet mit "Assoziation".

Einführung in die Statistik in Python

Verzerrungen

  Der Konsum von Kaffee (x) deutet auf Lungenkrebs (y) mit Rauchen (Störfaktor) hin. Doppelpfeil zwischen Rauchen und Kaffeetrinken, beschriftet mit "Assoziation". Pfeil von Rauchen zu Lungenkrebs, beschriftet mit "Kausalität"

Einführung in die Statistik in Python

Verzerrungen

  Konsum von Kaffee (x) mit Doppelpfeil zu Lungenkrebs (y), beschriftet mit "Assoziation". Doppelpfeil zwischen Rauchen und Kaffeetrinken, beschriftet mit "Assoziation". Pfeil von Rauchen zu Lungenkrebs, beschriftet mit "Kausalität".

  Die Feiertage (x) wirken sich auf die Einzelhandelsumsätze (y) aus. Sonderangebote (Störfaktor) hat einen Doppelpfeil zu Feiertagen und einen Einzelpfeil zu Einzelhandelsumsätzen.

Einführung in die Statistik in Python

Lass uns üben!

Einführung in die Statistik in Python

Preparing Video For Download...