Logistische regressie

A/B-testen in R

Lauryn Burleigh

Data Scientist

Log in logistic

Binaire
- Nogmaals pizza eten - ja/nee
Kans op categorie afleiden
Voorspelde afhankelijke variabele
- Odds = P / 1-P
- Lineair met onafhankelijke variabele
log(P / 1-P) = β₀ + β₁X₁
- fout binnen log-odds

Spreidingsdiagram met enjoy op de x-as en eat again op de y-as met punten op 0 of 1, en een gebogen logistische regressielijn.

Model logistische regressie

logistic <- glm(EatAgain ~ Enjoy, 
                data = Pizza, 
                family = binomial)
summary(logistic)

chival <- logistic$null.deviance - logistic$deviance
dfval <- logistic$df.null - logistic$df.residual
pchisq(q = chival, df = dfval, lower.tail = FALSE)

[1] 7.472441e-16

Call:
glm(formula = EatAgain ~ Enjoy, family = binomial, 
data = pizza)

Afwijkingsresiduen: 
    Min       1Q   Mediaan       3Q      Max  
-3.9677   0.0116   0.0297   0.0885   0.9446  

Coëfficiënten:
            Schatting Std. Fout z-waarde Pr(>|z|)    
(Intercept)  -4.2361     1.4757  -2.871 0.004097 ** 
Enjoy         0.9611     0.2533   3.794 0.000148 ***

Null deviance: 96.204  op 199  vrijheidsgraden
Residual deviance: 31.199  op 198  vrijheidsgraden
AIC: 35.199
Aantal Fisher Scoring-iteraties: 9

Data voorspellen

Enjoy  <- c(12, 14)
topredict <-  data.frame(Enjoy) 
predict(logistic, topredict, 
        type = "response")

        1         2 
0.9993229 0.9999009

Groepen toevoegen

grplogistic <- glm(EatAgain ~ Enjoy + 
                   Topping, 
                   data = pizza, 
                   family = binomial)
summary(grplogistic)

Call:
glm(formula = EatAgain ~ Enjoy + Topping, family = binomial, 
    data = pizza)

Afwijkingsresiduen: 
    Min       1Q   Mediaan       3Q      Max  
-3.8557   0.0058   0.0222   0.0862   0.8887  

Coëfficiënten:
                 Schatting Std. Fout z-waarde Pr(>|z|)   
(Intercept)       -9.4498     3.8806  -2.435  0.01489 * 
Enjoy              1.3402     0.4118   3.255  0.00114 **
ToppingCheese   3.4652     2.0499   1.690  0.09095 . 

Null deviance: 96.204  op 199  vrijheidsgraden
Residual deviance: 28.232  op 197  vrijheidsgraden
AIC: 34.232

Aantal Fisher Scoring-iteraties: 9

Laten we oefenen!

A/B-testen in R