Paradoks Simpson

Regresi Tingkat Menengah di R

Richie Cotton

Data Evangelist at DataCamp

Sebuah paradoks yang cerdik!

Paradoks Simpson terjadi ketika tren model pada seluruh dataset sangat berbeda dari tren model pada subset dataset.

tren = koefisien kemiringan

Regresi Tingkat Menengah di R

Data Simpson sintetis

x y grup
62.24344 70.60840 D
52.33499 14.70577 B
56.36795 46.39554 C
66.80395 66.17487 D
66.53605 89.24658 E
62.38129 91.45260 E
  • 5 grup data, berlabel "A" hingga "E"
1 https://www.rdocumentation.org/packages/datasauRus/topics/simpsons_paradox
Regresi Tingkat Menengah di R

Regresi linier

Seluruh dataset

mdl_whole <- lm(
  y ~ x, 
  data = simpsons_paradox
)
coefficients(mdl_whole)
(Intercept)            x  
    -38.554        1.751  

Per grup

mdl_by_group <- lm(
  y ~ group + group:x + 0, 
  data = simpsons_paradox
)
coefficients(mdl_by_group)
  groupA    groupB    groupC    groupD    groupE  
 32.5051   67.3886   99.6333  132.3932  123.8242  
groupA:x  groupB:x  groupC:x  groupD:x  groupE:x  
 -0.6266   -1.0105   -0.9940   -0.9908   -0.5364
Regresi Tingkat Menengah di R

Plot seluruh dataset

ggplot(simpsons_paradox, aes(x, y)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

scatter-simpson-whole.png

Regresi Tingkat Menengah di R

Plot per grup

ggplot(simpsons_paradox, aes(x, y, color = group)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

scatter-simpson-by-group.png

Regresi Tingkat Menengah di R

Mendamaikan perbedaan

Saran baik

Jika memungkinkan, buat plot dataset.

Saran umum

Tidak ada model terbaik secara umum—tergantung dataset dan pertanyaan yang ingin dijawab.

Saran baik lainnya

Rumuskan pertanyaan sebelum memodelkan.

Regresi Tingkat Menengah di R

Contoh nilai ujian

scatter-video-games-whole.png

scatter-video-games-by-group.png

Regresi Tingkat Menengah di R

Contoh penyakit menular

scatter-cities-whole.png

scatter-cities-by-group.png

1 https://stats.stackexchange.com/questions/478463/examples-of-simpsons-paradox-being-resolved-by-choosing-the-aggregate-data
Regresi Tingkat Menengah di R

Mendamaikan perbedaan, lagi

  • Biasanya (tidak selalu) model terkelompok lebih informatif.
  • Apakah Anda melewatkan variabel penjelas?
  • Konteks itu penting.
Regresi Tingkat Menengah di R

Paradoks Simpson pada dataset nyata

  • Paradoks biasanya kurang mencolok.
  • Anda bisa melihat kemiringan nol, bukan perubahan arah total.
  • Mungkin tidak muncul di setiap grup.
Regresi Tingkat Menengah di R

Ayo berlatih!

Regresi Tingkat Menengah di R

Preparing Video For Download...