Correlatie

Inleiding tot statistiek

George Boorman

Curriculum Manager, DataCamp

Relaties tussen twee variabelen

spreidingsdiagram van maandelijkse sportschoolkosten vs. prijs van een fles water.png

Inleiding tot statistiek

Pearsons correlatiecoëfficiënt

  • Gepubliceerd door Karl Pearson in 1896!
  • Kwantificeert de sterkte van een relatie tussen twee variabelen
  • Getal tussen min één en één
  • Grootte komt overeen met sterkte van de relatie
  • Teken (+ of -) komt overeen met richting van de relatie
1 https://royalsocietypublishing.org/doi/10.1098/rsta.1896.0007
Inleiding tot statistiek

Lineaire relaties

  • Lineair = evenredige veranderingen tussen afhankelijke en onafhankelijke variabele

spreidingsdiagram van sportschool- vs. waterkosten met annotaties voor waarnemingen van $1 water en $30 sportschoolkosten plus $1,50 water en $45 sportschoolkosten en correlatiecoëfficiënt = 0,36.png

Inleiding tot statistiek

Waarden = sterkte van de relatie

0,99 (zeer sterke relatie)

Spreidingsdiagram met punten dicht bij een onzichtbare lijn.png

Inleiding tot statistiek

Waarden = sterkte van de relatie

0,99 (zeer sterke relatie)

Spreidingsdiagram met punten dicht bij een onzichtbare lijn.png

0,75 (sterke relatie)

Spreidingsdiagram met punten verder van de onzichtbare lijn.png

Inleiding tot statistiek

Waarden = sterkte van de relatie

0,56 (matige relatie)

Spreidingsdiagram met punten nog verder van de onzichtbare lijn.png

Inleiding tot statistiek

Waarden = sterkte van de relatie

0,56 (matige relatie)

Spreidingsdiagram met punten nog verder van de onzichtbare lijn.png

0,21 (zwakke relatie)

Spreidingsdiagram met punten die bijna volledig willekeurig liggen.png

Inleiding tot statistiek

Waarden = sterkte van de relatie

0,04 (geen relatie)

Spreidingsdiagram met punten die volledig willekeurig liggen.png

  • De waarde van x zegt niets over y
Inleiding tot statistiek

Teken = richting

0,75: als x toeneemt, neemt y toe

Spreidingsdiagram waar y toeneemt als x toeneemt.png

-0,75: als x toeneemt, neemt y af

Spreidingsdiagram waar y afneemt als x toeneemt.png

Inleiding tot statistiek

Sportschoolkosten vs. waterprijs

spreidingsdiagram van maandelijkse sportschoolkosten vs. prijs van een fles water.png

Inleiding tot statistiek

Een trendlijn toevoegen

spreidingsdiagram van sportschool- vs. waterkosten met trendlijn en annotatie p = 0,35.png

Inleiding tot statistiek

Levensverwachting vs. prijs van een fles water

spreidingsdiagram van levensverwachting vs. waterprijs met trendlijn en p = 0,61.png

Inleiding tot statistiek

Correlatie is geen causaliteit

  • Leidt een hogere waterprijs tot een hogere levensverwachting?

waterflessen.png

oud stel.png

  • Correlatie is geen causaliteit
1 Image credit: https://unsplash.com/@micheile; https://unsplash.com/@jon_chng
Inleiding tot statistiek

Verstorende variabelen

  • Wat beïnvloedt levensverwachting nog meer?

    • Water is duurder in landen met een sterke economie
    • Deze landen bieden meestal toegang tot hoogwaardige zorg
  • De sterkte van de economie kan een confounder zijn

    • Een confounder wordt niet gemeten, maar kan de relatie tussen onze variabelen beïnvloeden

dokter.jpg

Inleiding tot statistiek

Laten we oefenen!

Inleiding tot statistiek

Preparing Video For Download...