Correlação

Introdução à estatística em Python

Maggie Matsui

Content Developer, DataCamp

Relações entre duas variáveis

Gráfico de dispersão dos hábitos de sono dos mamíferos, mostrando o sono total por dia versus o sono REM por dia

  • x = variável explicativa/independente
  • y = variável de resposta/dependente
Introdução à estatística em Python

Coeficiente de correlação

  • Quantifica a relação linear entre duas variáveis
  • Número entre -1 e 1
  • A magnitude corresponde à força da relação
  • O sinal (+ ou -) corresponde à direção da relação
Introdução à estatística em Python

Magnitude = força da relação

0,99 (relacionamento muito forte)

Gráfico de dispersão com pontos muito próximos de uma linha invisível

Introdução à estatística em Python

Magnitude = força da relação

0,99 (relacionamento muito forte)

Gráfico de dispersão com pontos muito próximos de uma linha invisível

              0,75 (relação forte)

Gráfico de dispersão com pontos mais distantes da linha invisível

Introdução à estatística em Python

Magnitude = força da relação

0,56 (relação moderada)

Gráfico de dispersão com pontos ainda mais distantes da linha invisível

Introdução à estatística em Python

Magnitude = força da relação

0,56 (relação moderada)

Gráfico de dispersão com pontos ainda mais distantes da linha invisível

             0,21 (relação fraca)

Gráfico de dispersão com pontos que parecem estar quase totalmente dispersos aleatoriamente

Introdução à estatística em Python

Magnitude = força da relação

0,04 (sem relação)

Gráfico de dispersão com pontos que parecem totalmente dispersos aleatoriamente

  • Saber o valor de x não nos diz nada sobre y
Introdução à estatística em Python

Sinal = direção

0,75:  conforme x aumenta, y aumenta

Gráfico de dispersão em que y aumenta à medida que x aumenta

-0,75:  conforme x aumenta, y diminui

Gráfico de dispersão em que y diminui à medida que x aumenta

Introdução à estatística em Python

Visualização de relacionamentos

import seaborn as sns

sns.scatterplot(x="sleep_total", y="sleep_rem", data=msleep)
plt.show()

Gráfico de dispersão de sleep_rem vs. sleep_total

Introdução à estatística em Python

Adicionar uma linha de tendência

import seaborn as sns
sns.lmplot(x="sleep_total", y="sleep_rem", data=msleep, ci=None)

plt.show()

Gráfico de dispersão de sleep_rem vs. sleep_total com linha de tendência linear

Introdução à estatística em Python

Correlação de computação

msleep['sleep_total'].corr(msleep['sleep_rem'])
0.751755

 

msleep['sleep_rem'].corr(msleep['sleep_total'])
0.751755
Introdução à estatística em Python

Muitas maneiras de calcular a correlação

  • Usado neste curso: coeficiente de correlação de Pearson   ($r$)
    • Mais comum
    • $\bar{x} =$ média de $x$
    • $\sigma_x =$ desvio padrão de $x$

$$ r = \frac{1}{n - 1} \sum_{i=1}^{n} \frac{(x_i - \bar{x})(y_i - \bar{y})}{\sigma_x \cdot \sigma_y}$$

  • Variações dessa fórmula:
    • Tau de Kendall
    • Rho de Spearman
Introdução à estatística em Python

Vamos praticar!

Introdução à estatística em Python

Preparing Video For Download...