Paradox van Simpson

Intermediary Regression in R

Richie Cotton

Data Evangelist at DataCamp

Een zeer ingenieuze paradox!

De paradox van Simpson treedt op wanneer de trend van een model op de hele dataset sterk verschilt van de trends van modellen op subsets.

trend = hellingscoëfficiënt

Intermediary Regression in R

Synthetische Simpson-data

x y groep
62.24344 70.60840 D
52.33499 14.70577 B
56.36795 46.39554 C
66.80395 66.17487 D
66.53605 89.24658 E
62.38129 91.45260 E
  • 5 datagroepen, gelabeld "A" t/m "E"
1 https://www.rdocumentation.org/packages/datasauRus/topics/simpsons_paradox
Intermediary Regression in R

Lineaire regressies

Hele dataset

mdl_whole <- lm(
  y ~ x, 
  data = simpsons_paradox
)
coefficients(mdl_whole)
(Intercept)            x  
    -38.554        1.751  

Per groep

mdl_by_group <- lm(
  y ~ group + group:x + 0, 
  data = simpsons_paradox
)
coefficients(mdl_by_group)
  groupA    groupB    groupC    groupD    groupE  
 32.5051   67.3886   99.6333  132.3932  123.8242  
groupA:x  groupB:x  groupC:x  groupD:x  groupE:x  
 -0.6266   -1.0105   -0.9940   -0.9908   -0.5364
Intermediary Regression in R

Hele dataset plotten

ggplot(simpsons_paradox, aes(x, y)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

spreiding-simpson-geheel.png

Intermediary Regression in R

Per groep plotten

ggplot(simpsons_paradox, aes(x, y, color = group)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

spreiding-simpson-per-groep.png

Intermediary Regression in R

Verschil verklaren

Goede tip

Plot de dataset als het kan.

Veelgehoorde tip

Je kunt niet algemeen het beste model kiezen—het hangt af van de dataset en je vraag.

Nog een goede tip

Formuleer eerst je vraag voordat je modelleert.

Intermediary Regression in R

Voorbeeld: toetscijfers

spreiding-videogames-geheel.png

spreiding-videogames-per-groep.png

Intermediary Regression in R

Voorbeeld: infectieziekten

spreiding-steden-geheel.png

spreiding-steden-per-groep.png

1 https://stats.stackexchange.com/questions/478463/examples-of-simpsons-paradox-being-resolved-by-choosing-the-aggregate-data
Intermediary Regression in R

Verschil opnieuw verklaren

  • Meestal (niet altijd) geeft het gegroepeerde model meer inzicht.
  • Mis je verklarende variabelen?
  • Context is belangrijk.
Intermediary Regression in R

Paradox van Simpson in echte datasets

  • De paradox is meestal minder opvallend.
  • Je ziet vaker een helling 0 dan een complete omkering.
  • Het hoeft niet in elke groep te verschijnen.
Intermediary Regression in R

Laten we oefenen!

Intermediary Regression in R

Preparing Video For Download...