Simpson Paradoksu

R'de Orta Düzey Regresyon

Richie Cotton

Data Evangelist at DataCamp

Çok şaşırtıcı bir paradoks!

Simpson Paradoksu, tüm veri setindeki model eğilimi, veri alt kümelerindeki modellerin eğilimlerinden çok farklı olduğunda ortaya çıkar.

eğilim = eğim katsayısı

R'de Orta Düzey Regresyon

Sentetik Simpson verisi

x y group
62.24344 70.60840 D
52.33499 14.70577 B
56.36795 46.39554 C
66.80395 66.17487 D
66.53605 89.24658 E
62.38129 91.45260 E
  • "A" ile "E" arasında etiketlenmiş 5 veri grubu
1 https://www.rdocumentation.org/packages/datasauRus/topics/simpsons_paradox
R'de Orta Düzey Regresyon

Doğrusal regresyonlar

Tüm veri seti

mdl_whole <- lm(
  y ~ x, 
  data = simpsons_paradox
)
coefficients(mdl_whole)
(Intercept)            x  
    -38.554        1.751  

Gruba göre

mdl_by_group <- lm(
  y ~ group + group:x + 0, 
  data = simpsons_paradox
)
coefficients(mdl_by_group)
  groupA    groupB    groupC    groupD    groupE  
 32.5051   67.3886   99.6333  132.3932  123.8242  
groupA:x  groupB:x  groupC:x  groupD:x  groupE:x  
 -0.6266   -1.0105   -0.9940   -0.9908   -0.5364
R'de Orta Düzey Regresyon

Tüm veri setini çizmek

ggplot(simpsons_paradox, aes(x, y)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Saçılım grafiği: tüm veri seti

R'de Orta Düzey Regresyon

Gruba göre çizmek

ggplot(simpsons_paradox, aes(x, y, color = group)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Saçılım grafiği: gruba göre

R'de Orta Düzey Regresyon

Farkı uzlaştırmak

İyi öneri

Mümkünse veri setini görselleştirin.

Yaygın öneri

Genel olarak en iyi modeli seçemezsiniz—veri setine ve yanıtlamak istediğiniz soruya bağlıdır.

Daha iyi öneri

Modellemeye başlamadan önce soruyu netleştirin.

R'de Orta Düzey Regresyon

Test puanı örneği

Saçılım: test puanları, tüm veri

Saçılım: test puanları, gruba göre

R'de Orta Düzey Regresyon

Bulaşıcı hastalık örneği

Saçılım: bulaşıcı hastalık, tümü

Saçılım: bulaşıcı hastalık, gruba göre

1 https://stats.stackexchange.com/questions/478463/examples-of-simpsons-paradox-being-resolved-by-choosing-the-aggregate-data
R'de Orta Düzey Regresyon

Farkı yine uzlaştırmak

  • Genelde (ama her zaman değil) gruplu model daha çok içgörü sunar.
  • Açıklayıcı değişkenleri mi kaçırıyorsunuz?
  • Bağlam önemlidir.
R'de Orta Düzey Regresyon

Gerçek veri setlerinde Simpson paradoksu

  • Paradoks genelde daha az belirgindir.
  • Tam yön değişimi yerine sıfır eğim görebilirsiniz.
  • Her grupta görülmeyebilir.
R'de Orta Düzey Regresyon

Hadi pratik yapalım!

R'de Orta Düzey Regresyon

Preparing Video For Download...