Correlatie

Inleiding tot statistiek in Python

Maggie Matsui

Content Developer, DataCamp

Relaties tussen twee variabelen

Spreidingsdiagram van slaapgewoonten van zoogdieren, totale slaap per dag vs. REM-slaap per dag

  • x = verklarende/independente variabele
  • y = respons-/dependente variabele
Inleiding tot statistiek in Python

Correlatiecoëfficiënt

  • Kwantificeert de lineaire relatie tussen twee variabelen
  • Getal tussen -1 en 1
  • Grootte komt overeen met sterkte
  • Teken (+ of -) geeft richting aan
Inleiding tot statistiek in Python

Grootte = sterkte van de relatie

0,99 (zeer sterke relatie)

Spreidingsdiagram met punten heel dicht bij een onzichtbare lijn

Inleiding tot statistiek in Python

Grootte = sterkte van de relatie

0,99 (zeer sterke relatie)

Spreidingsdiagram met punten heel dicht bij een onzichtbare lijn

              0,75 (sterke relatie)

Spreidingsdiagram met punten verder van de onzichtbare lijn

Inleiding tot statistiek in Python

Grootte = sterkte van de relatie

0,56 (matige relatie)

Spreidingsdiagram met punten nog verder van de onzichtbare lijn

Inleiding tot statistiek in Python

Grootte = sterkte van de relatie

0,56 (matige relatie)

Spreidingsdiagram met punten nog verder van de onzichtbare lijn

             0,21 (zwakke relatie)

Spreidingsdiagram met punten die bijna volledig willekeurig verspreid zijn

Inleiding tot statistiek in Python

Grootte = sterkte van de relatie

0,04 (geen relatie)

Spreidingsdiagram met punten die volledig willekeurig verspreid zijn

  • De waarde van x zegt niets over y
Inleiding tot statistiek in Python

Teken = richting

0,75:  als x toeneemt, neemt y toe

Spreidingsdiagram waar y toeneemt als x toeneemt

-0,75:  als x toeneemt, neemt y af

Spreidingsdiagram waar y afneemt als x toeneemt

Inleiding tot statistiek in Python

Relaties visualiseren

import seaborn as sns

sns.scatterplot(x="sleep_total", y="sleep_rem", data=msleep)
plt.show()

Spreidingsdiagram van sleep_rem vs. sleep_total

Inleiding tot statistiek in Python

Een trendlijn toevoegen

import seaborn as sns
sns.lmplot(x="sleep_total", y="sleep_rem", data=msleep, ci=None)

plt.show()

Spreidingsdiagram van sleep_rem vs. sleep_total met lineaire trendlijn

Inleiding tot statistiek in Python

Correlatie berekenen

msleep['sleep_total'].corr(msleep['sleep_rem'])
0.751755

 

msleep['sleep_rem'].corr(msleep['sleep_total'])
0.751755
Inleiding tot statistiek in Python

Meerdere manieren om correlatie te berekenen

  • In deze course: Pearson-correlatie   ($r$)
    • Meest gebruikelijk
    • $\bar{x} =$ gemiddelde van $x$
    • $\sigma_x =$ standaarddeviatie van $x$

$$ r = \frac{1}{n - 1} \sum_{i=1}^{n} \frac{(x_i - \bar{x})(y_i - \bar{y})}{\sigma_x \cdot \sigma_y}$$

  • Variaties op deze formule:
    • Kendall's tau
    • Spearman's rho
Inleiding tot statistiek in Python

Laten we oefenen!

Inleiding tot statistiek in Python

Preparing Video For Download...