Alertas sobre correlação

Introdução à Estatística em R

Maggie Matsui

Content Developer, DataCamp

Relações não lineares

dispersão de variáveis com relação quadrática

$$r = 0.18$$

Introdução à Estatística em R

Relações não lineares

O que vemos:

dispersão com relação quadrática e linha de tendência quadrática

O que o coeficiente de correlação vê:

dispersão com relação quadrática e linha de tendência linear

Introdução à Estatística em R

Correlação captura só relações lineares

Não use correlação no automático

cor(df$x, df$y)
0.1786163

Sempre visualize os dados

dispersão de variáveis com relação quadrática

Introdução à Estatística em R

Dados de sono de mamíferos

msleep
   name                       vore  sleep_total awake  bodywt
 1 Cheetah                    carni        12.1  11.9  50    
 2 Owl monkey                 omni         17     7     0.48 
 3 Mountain beaver            herbi        14.4   9.6   1.35 
 4 Greater short-tailed shrew omni         14.9   9.1   0.019
 5 Cow                        herbi         4    20   600    
 6 Three-toed sloth           herbi        14.4   9.6   3.85 
 ... 
Introdução à Estatística em R

Peso corporal vs. tempo acordado

Diagrama de dispersão: peso corporal vs. tempo acordado

cor(msleep$bodywt, msleep$awake)
0.3119801
Introdução à Estatística em R

Distribuição do peso corporal

Histograma da variável bodywt

Introdução à Estatística em R

Transformação log

msleep %>%
  mutate(log_bodywt = log(bodywt)) %>%

ggplot(aes(log_bodywt, awake)) + geom_point() + geom_smooth(method = "lm", se = FALSE)

 

cor(msleep$log_bodywt, msleep$awake)
0.5687943

Diagrama de dispersão: log do peso corporal vs. tempo acordado

Introdução à Estatística em R

Outras transformações

  • Transformação log (log(x))
  • Transformação raiz quadrada (sqrt(x))
  • Transformação recíproca (1 / x)

  • Combinações, por ex.:

    • log(x) e log(y)
    • sqrt(x) e 1 / y
Introdução à Estatística em R

Por que transformar?

  • Certos métodos estatísticos exigem relação linear
    • Coeficiente de correlação
    • Regressão linear
Introdução à Estatística em R

Correlação não implica causalidade

x é correlacionado com y não quer dizer x causa y

Dispersão do consumo per capita de margarina nos EUA vs. taxa de divórcio no Maine. Altamente correlacionados (r = 0,99)

Introdução à Estatística em R

Confundimento

  Café (x) apontando para câncer de pulmão (y)

Introdução à Estatística em R

Confundimento

  Café (x) apontando para câncer de pulmão (y) com tabagismo (fator de confusão) acima

Introdução à Estatística em R

Confundimento

  Café (x) apontando para câncer de pulmão (y) com tabagismo (fator de confusão). Seta dupla entre tabagismo e café, rotulada "associação".

Introdução à Estatística em R

Confundimento

  Café (x) apontando para câncer de pulmão (y) com tabagismo (fator de confusão). Seta dupla entre tabagismo e café, rotulada "associação". Seta de tabagismo para câncer de pulmão rotulada "causalidade"

Introdução à Estatística em R

Confundimento

  Café (x) com seta dupla para câncer de pulmão (y) rotulada "associação". Seta dupla entre tabagismo e café, "associação". Seta de tabagismo para câncer de pulmão, "causalidade".

  Feriados (x) apontam para vendas no varejo (y). Promoções (fator de confusão) tem seta dupla para feriados e seta simples para vendas.

Introdução à Estatística em R

Vamos praticar!

Introdução à Estatística em R

Preparing Video For Download...