Kanttekeningen bij correlatie

Inleiding tot statistiek in R

Maggie Matsui

Content Developer, DataCamp

Niet-lineaire relaties

spreidingsdiagram van variabelen met een quadratische relatie

$$r = 0,18$$

Inleiding tot statistiek in R

Niet-lineaire relaties

Wat we zien:

spreidingsdiagram van variabelen met een quadratische relatie met quadratische trendlijn

Wat de correlatiecoëfficiënt ziet:

spreidingsdiagram van variabelen met een quadratische relatie met een lineaire trendlijn

Inleiding tot statistiek in R

Correlatie dekt alleen lineaire relaties

Gebruik correlatie niet blindelings

cor(df$x, df$y)
0.1786163

Visualiseer je data altijd

spreidingsdiagram van variabelen met een quadratische relatie

Inleiding tot statistiek in R

Slaaptijden van zoogdieren

msleep
   name                       vore  sleep_total awake  bodywt
 1 Cheetah                    carni        12.1  11.9  50    
 2 Owl monkey                 omni         17     7     0.48 
 3 Mountain beaver            herbi        14.4   9.6   1.35 
 4 Greater short-tailed shrew omni         14.9   9.1   0.019
 5 Cow                        herbi         4    20   600    
 6 Three-toed sloth           herbi        14.4   9.6   3.85 
 ... 
Inleiding tot statistiek in R

Lichaamsgewicht vs. wakkere tijd

Spreidingsdiagram van lichaamsgewicht vs. wakkere tijd

cor(msleep$bodywt, msleep$awake)
0.3119801
Inleiding tot statistiek in R

Verdeling van lichaamsgewicht

Histogram van variabele bodywt

Inleiding tot statistiek in R

Logtransformatie

msleep %>%
  mutate(log_bodywt = log(bodywt)) %>%

ggplot(aes(log_bodywt, awake)) + geom_point() + geom_smooth(method = "lm", se = FALSE)

 

cor(msleep$log_bodywt, msleep$awake)
0.5687943

Spreidingsdiagram van log bodywt vs. awake

Inleiding tot statistiek in R

Andere transformaties

  • Logtransformatie (log(x))
  • Worteltransformatie (sqrt(x))
  • Reciproque transformatie (1 / x)

  • Combinaties hiervan, bijv.:

    • log(x) en log(y)
    • sqrt(x) en 1 / y
Inleiding tot statistiek in R

Waarom transformeren?

  • Sommige methoden vereisen een lineaire relatie
    • Correlatiecoëfficiënt
    • Lineaire regressie
Inleiding tot statistiek in R

Correlatie is geen causaliteit

x correleert met y betekent niet x veroorzaakt y

Spreidingsdiagram van margarineconsumptie per hoofd in de VS vs. echtscheidingscijfer in Maine. Sterke correlatie met correlatiecoëfficiënt 0,99

Inleiding tot statistiek in R

Confounding

  Koffiedrinken (x) wijst naar longkanker (y)

Inleiding tot statistiek in R

Confounding

  Koffiedrinken (x) wijst naar longkanker (y) met roken (confounder) erboven

Inleiding tot statistiek in R

Confounding

  Koffiedrinken (x) wijst naar longkanker (y) met roken (confounder). Dubbele pijl tussen roken en koffiedrinken, gelabeld "associatie".

Inleiding tot statistiek in R

Confounding

  Koffiedrinken (x) wijst naar longkanker (y) met roken (confounder). Dubbele pijl tussen roken en koffiedrinken, gelabeld "associatie". Pijl van roken naar longkanker gelabeld "causaliteit"

Inleiding tot statistiek in R

Confounding

  Koffiedrinken (x) met dubbele pijl naar longkanker (y) gelabeld "associatie". Dubbele pijl tussen roken en koffiedrinken, gelabeld "associatie". Pijl van roken naar longkanker gelabeld "causaliteit".

  Feestdagen (x) wijst naar detailhandelsverkopen (y). Speciale aanbiedingen (confounder) heeft dubbele pijl naar feestdagen en enkelvoudige pijl naar detailhandelsverkopen.

Inleiding tot statistiek in R

Laten we oefenen!

Inleiding tot statistiek in R

Preparing Video For Download...