t-toets voor onafhankelijke steekproeven

A/B-testen in R

Lauryn Burleigh

Data Scientist

Onafhankelijke t-toets in A/B-design

Significant verschil in gemiddelden
Nulhypothese:
- Cheese en Pepperoni worden in dezelfde tijd gegeten (geen verschil)

Aannames

Afhankelijke variabele:
- Interval of ratio
- Gelijke intervallen
Aselecte steekproeven
Normale verdeling
Vergelijkbare groepsvarianties

library(ggplot2)
ggplot(pizza, aes(x = Time, 
                  fill = Topping)) +
       geom_histogram() + 
       facet_grid(Topping~.)

Twee normaal verdeelde histogrammen. Pepperoni in roze met een gemiddelde van 8 en Cheese in blauw met een gemiddelde van 6,2.

Steekproefgrootte

library(pwr)
pwr.t.test(d = 0.73, power = 0.80, 
           sig.level = 0.05, 
           type = "two.sample", 
           alternative = "two.sided")

  Two-sample t test power calculation 

              n = 30.44799
              d = 0.73
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group

Varianties beoordelen

Groepsvarianties gelijk
Levene's test

Niet significant (p > 0,05) = varianties gelijk

Als significant (p < 0,05) = varianties ongelijk

library(car)
leveneTest(Time ~ Topping, 
           data = Pizza)

Levene's Test for Homogeneity of Variance
         Df F value Pr(>F)
group   1  0.1457 0.7031

Toets

t.test(Time ~ Topping, data = Pizza, 
       paired = FALSE, 
       alternative = "two.sided", 
       var.equal = TRUE)

    Two Sample t-test
data:  Time by Topping
t = 2.3811, df = 198, p-value = 0.01821
alternative hypothesis: true difference 
in means between group Pepperoni and 
group Cheese is not equal to 0
95 percent confidence interval:
 0.0599370 0.6377601

Cohen's d

Cohen's d: effectgrootte t-toets
- Gestandaardiseerd verschil tussen gemiddelden

Klein: 0,2
Middel: 0,5
Groot: 0,8

library(effectsize)
cohens_d(Time ~ Topping, data = Pizza)

Cohen's d |       95% CI
<----------------------
0.34      | [0.06, 0.62]

Power

library(pwr)

pwr.t.test(n = 1000, 
           sig.level = 0.0182, 
           d = 0.34, 
           type = "two.sample")

  Two-sample t test power calculation 
              n = 100
              d = 0.34
      sig.level = 0.0182
          power = 0.510256
    alternative = two.sided
NOTE: n is number in *each* group

Gewenste power voor betrouwbare resultaten: 0,8
- Kans op fout: 20%
- 100 - 80 = 20

Laten we oefenen!

A/B-testen in R