Correlação

Introdução à Estatística em R

Maggie Matsui

Content Developer, DataCamp

Relações entre duas variáveis

Gráfico de dispersão de hábitos de sono de mamíferos, mostrando sono total por dia vs sono REM por dia

  • x = variável explicativa/independente
  • y = variável resposta/dependente
Introdução à Estatística em R

Coeficiente de correlação

  • Quantifica a relação linear entre duas variáveis
  • Número entre -1 e 1
  • A magnitude corresponde à força da relação
  • O sinal (+ ou -) indica a direção da relação
Introdução à Estatística em R

Magnitude = força da relação

0,99 (relação muito forte)

Dispersão com pontos muito próximos de uma linha invisível

Introdução à Estatística em R

Magnitude = força da relação

0,99 (relação muito forte)

Dispersão com pontos muito próximos de uma linha invisível

0,75 (relação forte)

Dispersão com pontos mais longe da linha invisível

Introdução à Estatística em R

Magnitude = força da relação

0,56 (relação moderada)

Dispersão com pontos ainda mais longe da linha invisível

Introdução à Estatística em R

Magnitude = força da relação

0,56 (relação moderada)

Dispersão com pontos ainda mais longe da linha invisível

0,21 (relação fraca)

Dispersão com pontos quase totalmente aleatórios

Introdução à Estatística em R

Magnitude = força da relação

0,04 (sem relação)

Dispersão com pontos totalmente aleatórios

  • Saber o valor de x não diz nada sobre y
Introdução à Estatística em R

Sinal = direção

0,75: conforme x aumenta, y aumenta

Dispersão onde y aumenta conforme x aumenta

-0,75: conforme x aumenta, y diminui

Dispersão onde y diminui conforme x aumenta

Introdução à Estatística em R

Visualizando relações

ggplot(df, aes(x, y)) +
  geom_point()

Dispersão onde y diminui conforme x aumenta

Introdução à Estatística em R

Adicionando uma linha de tendência

ggplot(df, aes(x, y)) +
  geom_point() +

geom_smooth(method = "lm", se = FALSE)

Dispersão onde y diminui conforme x aumenta com linha de tendência

Introdução à Estatística em R

Calculando a correlação

cor(df$x, df$y)
-0.7472765

 

cor(df$y, df$x)
-0.7472765
Introdução à Estatística em R

Correlação com valores ausentes

df$x
-3.2508382  -9.1599807   3.4515013   4.1505899          NA   11.9806140   ...
cor(df$x, df$y)
NA
cor(df$x, df$y, use = "pairwise.complete.obs")
-0.7471757
Introdução à Estatística em R

Muitas formas de calcular correlação

  • Usada neste curso: correlação de Pearson   ($r$)
    • A mais comum
    • $\bar{x} =$ média de $x$

$$ r =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} $$

  • Variações desta fórmula:
    • Tau de Kendall
    • Rho de Spearman
Introdução à Estatística em R

Vamos praticar!

Introdução à Estatística em R

Preparing Video For Download...