Introductie tot correlaties

A/B-testen in R

Lauryn Burleigh

Data Scientist

Correlatie in A/B-ontwerp

  • Sterkte en richting van een verband
  • Twee variabelen
  • Toename of afname per eenheid van de andere variabele
    • Plezier correleert met tijd om te eten
  • Negeer groepen

Spreidingsdiagram met positieve correlatie; tijd op de x-as, plezier op de y-as; punten roze voor pepperoni en blauw voor kaas.

A/B-testen in R

Correlatie in A/B-ontwerp

  • Binnen groepen

 

Spreidingsdiagram met positieve correlatie; tijd op de x-as en plezier op de y-as voor alleen kaaspizza.

 

 

Spreidingsdiagram met positieve correlatie; tijd op de x-as en plezier op de y-as voor alleen pepperonipizza.

A/B-testen in R

Correlatie

  • Impliceert GEEN causaliteit

  • Toename in verdrinkingen & ijsverkoop

    • NIET causaal
    • Waarschijnlijk: warme maanden
  • A/B gebruiken om causaliteit af te leiden
    • Veranderingen maken en testen
  • A/B: kaas en pepperoni

    • Plezier en tijd om pizza te eten
    • Groepswijziging → relatie wijzigt
  • Geen aanwijzing voor afhankelijkheid

ggplot(data, aes(x = drownings, 
                 y = icecream)) +
  geom_point()

Spreidingsdiagram met positieve correlatie; aantal verdrinkingen op de x-as en ijsverkoop op de y-as.

A/B-testen in R

Correlatiecoëfficiënt

  • Correlatiecoëfficiënt (r): sterkte van het verband
    • -1 tot +1
  • Extremere waarden = sterker verband
    • Betere voorspelling

 

Een spreidingsdiagram zonder correlatie: punten op hetzelfde y-niveau over de hele x-as.

Spreidingsdiagram met negatieve correlatie: hoge punten links op de x-as, afnemend naar rechts.

Spreidingsdiagram met positieve correlatie: lage punten links op de x-as, toenemend naar rechts.

A/B-testen in R

Correlatiewaarden

  • Deel van de variatie in eetduur toe te schrijven aan plezier
    • R^2
corvalue <- cor(data$time, data$enjoyment)
corvalue
[1]    .73
corvalue^2
[1]        .5329
A/B-testen in R

Beperkingen van correlatie

  • Extra gevoelig voor uitschieters

 

Correlatiecoëfficiënten

  • Geen lijn van beste fit

    • Regressie
  • Geen indicatie van significantie

    • r en steekproefgrootte voor p-waarde

Afbeelding van een positieve correlatie op een computer, met rechtsonder een punt buiten de lijn als uitschieter.

Spreidingsdiagram met positieve correlatie en een rode best-fitlijn; verdrinkingen op de x-as en ijsverkoop op de y-as.

A/B-testen in R

Laten we oefenen!

A/B-testen in R

Preparing Video For Download...