Regresi ke rerata

Pengantar Regresi di R

Richie Cotton

Data Evangelist

Konsepnya

  • Nilai respons = nilai taksiran + residual
  • "Yang Anda jelaskan" + "yang tidak bisa Anda jelaskan"
  • Residual muncul karena masalah model dan kerandoman dasar
  • Kasus ekstrem sering terjadi karena acak
  • Regresi ke rerata berarti kasus ekstrem tidak bertahan lama
Pengantar Regresi di R

Dataset ayah-anak Pearson

  • 1078 pasangan ayah/anak
  • Apakah ayah tinggi punya anak laki-laki yang tinggi?
father_height_cm son_height_cm
165.2 151.8
160.7 160.6
165.0 160.9
167.0 159.5
155.3 163.3
... ...
1 Diadaptasi dari https://www.rdocumentation.org/packages/UsingR/topics/father.son
Pengantar Regresi di R

Diagram pencar

plt_son_vs_father <- ggplot(
  father_son, 
  aes(father_height_cm, son_height_cm)
) +
  geom_point() +
  geom_abline(color = "green", size = 1) +
  coord_fixed()

Diagram pencar tinggi anak vs tinggi ayah, dengan garis di mana ayah dan anak setinggi sama. Saat ayah lebih tinggi, anak juga lebih tinggi.

Pengantar Regresi di R

Menambahkan garis regresi

plt_son_vs_father +
  geom_smooth(method = "lm", se = FALSE)

Diagram pencar tinggi anak vs tinggi ayah, diberi garis tren linear. Garis tren lebih landai daripada garis di mana ayah dan anak setinggi sama.

Pengantar Regresi di R

Menjalankan regresi

mdl_son_vs_father <- lm(
  son_height_cm ~ father_height_cm, 
  data = father_son
)
Call:
lm(formula = son_height_cm ~ father_height_cm, data = father_son)

Coefficients:
     (Intercept)  father_height_cm  
          86.072             0.514
Pengantar Regresi di R

Membuat prediksi

really_tall_father <- tibble(
  father_height_cm = 190
)
predict(mdl_son_vs_father, really_tall_father)
183.7
really_short_father <- tibble(
  father_height_cm = 150
)
predict(mdl_son_vs_father, really_short_father)
163.2
Pengantar Regresi di R

Ayo berlatih!

Pengantar Regresi di R

Preparing Video For Download...