Correlatie

Inleiding tot statistiek in R

Maggie Matsui

Content Developer, DataCamp

Relaties tussen twee variabelen

Spreidingsdiagram van slaappatronen van zoogdieren, totale slaap per dag vs REM-slaap per dag

  • x = verklarende/onafhankelijke variabele
  • y = respons-/afhankelijke variabele
Inleiding tot statistiek in R

Correlatiecoëfficiënt

  • Kwantificeert de lineaire relatie tussen twee variabelen
  • Getal tussen -1 en 1
  • Grootte komt overeen met sterkte
  • Teken (+ of -) geeft de richting aan
Inleiding tot statistiek in R

Grootte = sterkte van de relatie

0,99 (zeer sterke relatie)

Spreidingsdiagram met punten heel dicht bij een onzichtbare lijn

Inleiding tot statistiek in R

Grootte = sterkte van de relatie

0,99 (zeer sterke relatie)

Spreidingsdiagram met punten heel dicht bij een onzichtbare lijn

0,75 (sterke relatie)

Spreidingsdiagram met punten verder van de onzichtbare lijn

Inleiding tot statistiek in R

Grootte = sterkte van de relatie

0,56 (matige relatie)

Spreidingsdiagram met punten nog verder van de onzichtbare lijn

Inleiding tot statistiek in R

Grootte = sterkte van de relatie

0,56 (matige relatie)

Spreidingsdiagram met punten nog verder van de onzichtbare lijn

0,21 (zwakke relatie)

Spreidingsdiagram met punten die bijna volledig willekeurig verspreid zijn

Inleiding tot statistiek in R

Grootte = sterkte van de relatie

0,04 (geen relatie)

Spreidingsdiagram met punten die volledig willekeurig verspreid zijn

  • De waarde van x zegt niets over y
Inleiding tot statistiek in R

Teken = richting

0,75: als x toeneemt, neemt y toe

Spreidingsdiagram waar y toeneemt als x toeneemt

-0,75: als x toeneemt, neemt y af

Spreidingsdiagram waar y afneemt als x toeneemt

Inleiding tot statistiek in R

Relaties visualiseren

ggplot(df, aes(x, y)) +
  geom_point()

Spreidingsdiagram waar y afneemt als x toeneemt

Inleiding tot statistiek in R

Een trendlijn toevoegen

ggplot(df, aes(x, y)) +
  geom_point() +

geom_smooth(method = "lm", se = FALSE)

Spreidingsdiagram waar y afneemt als x toeneemt met trendlijn

Inleiding tot statistiek in R

Correlatie berekenen

cor(df$x, df$y)
-0.7472765

 

cor(df$y, df$x)
-0.7472765
Inleiding tot statistiek in R

Correlatie met missende waarden

df$x
-3.2508382  -9.1599807   3.4515013   4.1505899          NA   11.9806140   ...
cor(df$x, df$y)
NA
cor(df$x, df$y, use = "pairwise.complete.obs")
-0.7471757
Inleiding tot statistiek in R

Veel manieren om correlatie te berekenen

  • In deze cursus: Pearson product-momentcorrelatie ($r$)
    • Meest gebruikt
    • $\bar{x} =$ gemiddelde van $x$

$$ r =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} $$

  • Variaties op deze formule:
    • Kendall’s tau
    • Spearman’s rho
Inleiding tot statistiek in R

Laten we oefenen!

Inleiding tot statistiek in R

Preparing Video For Download...