Simpson Paradoksu

R'de Orta Düzey Regresyon

Richie Cotton

Data Evangelist at DataCamp

Çok şaşırtıcı bir paradoks!

Simpson Paradoksu, tüm veri setindeki model eğilimi, veri alt kümelerindeki modellerin eğilimlerinden çok farklı olduğunda ortaya çıkar.

eğilim = eğim katsayısı

Sentetik Simpson verisi

x	y	group
62.24344	70.60840	D
52.33499	14.70577	B
56.36795	46.39554	C
66.80395	66.17487	D
66.53605	89.24658	E
62.38129	91.45260	E

"A" ile "E" arasında etiketlenmiş 5 veri grubu

¹ https://www.rdocumentation.org/packages/datasauRus/topics/simpsons_paradox

Doğrusal regresyonlar

Tüm veri seti

mdl_whole <- lm(
  y ~ x, 
  data = simpsons_paradox
)
coefficients(mdl_whole)

(Intercept)            x  
    -38.554        1.751

Gruba göre

mdl_by_group <- lm(
  y ~ group + group:x + 0, 
  data = simpsons_paradox
)
coefficients(mdl_by_group)

  groupA    groupB    groupC    groupD    groupE  
 32.5051   67.3886   99.6333  132.3932  123.8242  
groupA:x  groupB:x  groupC:x  groupD:x  groupE:x  
 -0.6266   -1.0105   -0.9940   -0.9908   -0.5364

Tüm veri setini çizmek

ggplot(simpsons_paradox, aes(x, y)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Saçılım grafiği: tüm veri seti

Gruba göre çizmek

ggplot(simpsons_paradox, aes(x, y, color = group)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Saçılım grafiği: gruba göre

Farkı uzlaştırmak

İyi öneri

Mümkünse veri setini görselleştirin.

Yaygın öneri

Genel olarak en iyi modeli seçemezsiniz—veri setine ve yanıtlamak istediğiniz soruya bağlıdır.

Daha iyi öneri

Modellemeye başlamadan önce soruyu netleştirin.

Test puanı örneği

Saçılım: test puanları, tüm veri

Saçılım: test puanları, gruba göre

Bulaşıcı hastalık örneği

Saçılım: bulaşıcı hastalık, tümü

Saçılım: bulaşıcı hastalık, gruba göre

¹ https://stats.stackexchange.com/questions/478463/examples-of-simpsons-paradox-being-resolved-by-choosing-the-aggregate-data

Farkı yine uzlaştırmak

Genelde (ama her zaman değil) gruplu model daha çok içgörü sunar.
Açıklayıcı değişkenleri mi kaçırıyorsunuz?
Bağlam önemlidir.

Gerçek veri setlerinde Simpson paradoksu

Paradoks genelde daha az belirgindir.
Tam yön değişimi yerine sıfır eğim görebilirsiniz.
Her grupta görülmeyebilir.

Hadi pratik yapalım!

R'de Orta Düzey Regresyon