Overwegingen bij A/B-testen

A/B-testen in R

Lauryn Burleigh

Data Scientist

Overwegingen bij A/B-testen

Gebruik A/B alleen als...

  • Proefpersonen/verkeer zijn substantieel
  • Tijd voor ontwerp en testen
  • Duidelijke hypothese

Overwegingen bij A/B-testen

  • Datumschommelingen
  • Aantal variabelen
  • Regressie naar het gemiddelde
A/B-testen in R

Schommelingen in data

  • Voor nauwkeurigheid: representatief voor de hele populatie
  • Schommelingen beïnvloeden resultaten
    • Verandering in proefpersonen
    • Dag van de week
    • Feestdagen
    • Publieke opinie

Lijngrafiek: terugkerende gebruikers dalen eerst en herstellen; nieuwe gebruikers nemen toe.

Aantal verkopen stijgt tijdens wintervakanties.

Aantal verkopen stijgt tijdens een uitverkoop en daalt daarbuiten.

A/B-testen in R

Voorbeeld van schommelingen

normaldist <- rnorm(10000) 
datasample <- sample(normaldist, 10)
ggplot() + 
    aes(datasample) +
    geom_histogram(bins = 8)

Een histogram van 10 datapunten over de hele x-as.

Een histogram van 10 datapunten met balken aan begin, midden en eind van de x-as.

Een histogram van 10 datapunten met vooral balken in het midden van de x-as.

A/B-testen in R

Aantal variabelen

  • Eén variabele: ideaal
  • Eén topping/één variabele
    • Beoordeel losse topping/conditie
    • Kaas: controlevariabele
    • Pepperoni: toppingvariabele
  • Twee toppings/meerdere variabelen
    • Beoordeel combinaties
    • Combinaties: paprika & ui, olijf & knoflook
    • Geen controle

Kaas- en pepperonipizza’s met één topping met 3 proefpersonen per groep en paprika met ui en olijf met knoflook pizza’s met twee toppings met 3 proefpersonen per groep.

A/B-testen in R

Variabelen en type I-fout

  • Meer variabelen -> meer analyses
    • Hogere kans op type I-fout
  • Gebruikelijke significantie: 5%
    • alpha: 0,05
    • 5% kans op een type I-fout
  • Betrouwbaarheidsniveau: 100 - significantie
    • Gebruikt voor family-wise error rate
      • 1 - kans op geen valse positieven

Bereken family-wise error rate

  • Significantieniveau: 5%
  • Betrouwbaarheidsniveau: 95%
  • Aantal tests: 10
1 - (1-0.05)^10

1 - (0.95)^10
0.40126306076

40%

A/B-testen in R

Regressie naar het gemiddelde

  • Extreme waarden middelen uit met extra data
  • Risico op type I-fout
  • Vergelijk met een controlegroep

Een lijngrafiek met eerst veel nieuwe inzendingen, die met de tijd naar het gemiddelde terugkeren.

Een lijngrafiek zonder verandering in inzendingen voor de originele knop vergeleken met veel nieuwe inzendingen na een wijziging, terwijl de wijzigingsgroep naar het gemiddelde terugkeert en het niveau zonder wijziging benadert.

A/B-testen in R

Regressie naar het gemiddelde

  • Kleine steekproeven zijn onnauwkeurig
  • Risico op type I-fout
  • Meer data -> ware gemiddelde
ID Plezier [1-10]
01 1
02 10
03 9
mean(c(1, 10))
5.5
mean(c(1, 10, 9))
6.6666
A/B-testen in R

Laten we oefenen!

A/B-testen in R

Preparing Video For Download...