Regressão à média

Introdução à Regressão em R

Richie Cotton

Data Evangelist

O conceito

  • Valor da resposta = valor ajustado + resíduo
  • "O que você explicou" + "o que não deu pra explicar"
  • Resíduos existem por problemas do modelo e por aleatoriedade
  • Casos extremos costumam ser aleatórios
  • Regressão à média: casos extremos não persistem ao longo do tempo
Introdução à Regressão em R

Conjunto pai e filho de Pearson

  • 1078 pares pai/filho
  • Pais altos têm filhos altos?
father_height_cm son_height_cm
165.2 151.8
160.7 160.6
165.0 160.9
167.0 159.5
155.3 163.3
... ...
1 Adaptado de https://www.rdocumentation.org/packages/UsingR/topics/father.son
Introdução à Regressão em R

Gráfico de dispersão

plt_son_vs_father <- ggplot(
  father_son, 
  aes(father_height_cm, son_height_cm)
) +
  geom_point() +
  geom_abline(color = "green", size = 1) +
  coord_fixed()

Gráfico de dispersão da altura dos filhos vs. dos pais, com a linha onde pai e filho teriam a mesma altura. À medida que os pais ficam mais altos, os filhos também.

Introdução à Regressão em R

Adicionando uma reta de regressão

plt_son_vs_father +
  geom_smooth(method = "lm", se = FALSE)

Dispersão da altura dos filhos vs. dos pais, com linha de tendência linear. A linha é menos inclinada que a de alturas iguais entre pai e filho.

Introdução à Regressão em R

Rodando uma regressão

mdl_son_vs_father <- lm(
  son_height_cm ~ father_height_cm, 
  data = father_son
)
Call:
lm(formula = son_height_cm ~ father_height_cm, data = father_son)

Coefficients:
     (Intercept)  father_height_cm  
          86.072             0.514
Introdução à Regressão em R

Fazendo previsões

really_tall_father <- tibble(
  father_height_cm = 190
)
predict(mdl_son_vs_father, really_tall_father)
183.7
really_short_father <- tibble(
  father_height_cm = 150
)
predict(mdl_son_vs_father, really_short_father)
163.2
Introdução à Regressão em R

Vamos praticar!

Introdução à Regressão em R

Preparing Video For Download...