Introductie tot lineaire regressie

A/B-testen in R

Lauryn Burleigh

Data Scientist

Regressie

  • A/B-ontwerp: tijd om kaas- of pepperonipizza te eten
  • Regressie: factoren die de eetduur beïnvloeden
    • Afhankelijke variabele: eetduur
    • Onafhankelijke variabelen: plezier, honger, visuele aantrekkelijkheid

Positieve correlatie van punten met tijd om pizza te eten op de y-as en plezier op de x-as.

A/B-testen in R

Regressielijn

  • Regressielijn: voorspelling van y

Positieve correlatie van punten met tijd om pizza te eten op de y-as en plezier op de x-as, met een rode best-fit-lijn.

A/B-testen in R

Regressielijn

  • Regressielijn: voorspelling van y
  • ŷ = β₀ + β₁X₁ + ε
    • β₀ - y-asintercept

Positieve correlatie van punten met tijd om pizza te eten op de y-as en plezier op de x-as, met een rode best-fit-lijn en paarse aanduiding van het y-intercept.

A/B-testen in R

Regressielijn

  • Regressielijn: voorspelling van y
  • ŷ = β₀ + β₁X₁ + ε
    • β₀ - y-asintercept
    • β₁ - helling

Positieve correlatie van punten met tijd om pizza te eten op de y-as en plezier op de x-as, met een rode best-fit-lijn en paarse aanduiding van het y-intercept en de helling.

A/B-testen in R

Regressielijn

  • Regressielijn: voorspelling van y
  • ŷ = β₀ + β₁X₁ + ε

    • β₀ - y-asintercept
    • β₁ - helling
    • ε - fout
  • Fout verkleinen

    • Meervoudige regressie: 2+ onafhankelijke variabelen
    • ŷ = β₀ + β₁X₁ + β₂X₂ + ε

Positieve correlatie van punten met tijd om pizza te eten op de y-as en plezier op de x-as, met een rode best-fit-lijn en paarse aanduiding van het y-intercept, de helling en een residu.

A/B-testen in R

Data voorspellen

yhat <- 5.32 + 0.08*(15)
ggplot(pizza, aes(x = Enjoy, 
                  y = Time)) + 
  geom_point() + 
  geom_hline(yintercept = yhat) + 
  geom_vline(xintercept = 15)

Positieve correlatie van punten met tijd om pizza te eten op de y-as en plezier op de x-as, met een horizontale lijn bij tijd 6,5 en een verticale lijn bij plezier 15.

A/B-testen in R

Aandachtspunten bij regressie

  • Correlatie is geen causaliteit
  • Beoordeel zinvolle variabelen
  • Data voor beslissingen/acties leiden tot
  • Datakwaliteit

Persoon die naar meerdere grafieken voor data-analyse kijkt.

A/B-testen in R

Laten we oefenen!

A/B-testen in R

Preparing Video For Download...