Correlação

Análise Exploratória de Dados em Python

Izzy Weber

Curriculum Manager, DataCamp

Correlação

  • Descreve a direção e a força da relação entre duas variáveis
  • Defina numeric_only=True para evitar erros com colunas não numéricas
divorce.corr(numeric_only=True)

                    income_man  income_woman  marriage_duration  num_kids  marriage_year 
 income_man         1.000       0.318         0.085              0.041     0.019         
 income_woman       0.318       1.000         0.079              -0.018    0.026         
 marriage_duration  0.085       0.079         1.000              0.447     -0.812        
 num_kids           0.041       -0.018        0.447              1.000     -0.461        
 marriage_year      0.019       0.026         -0.812             -0.461    1.000

Calcula o coeficiente de correlação de Pearson

Análise Exploratória de Dados em Python

Mapas de calor de correlação

sns.heatmap(divorce.corr(numeric_only=True), annot=True)
plt.show()

Um mapa de calor das correlações do divórcio

Análise Exploratória de Dados em Python

Correlação em contexto

divorce["divorce_date"].min()
Timestamp('2000-01-08 00:00:00')
divorce["divorce_date"].max()
Timestamp('2015-11-03 00:00:00')
Análise Exploratória de Dados em Python

Visualizar relacionamentos

Uma relação forte com um baixo coeficiente de correlação linear

  • Relação forte, mas não linear
  • Coeficiente de correlação de Pearson: -6.48e-18

Uma relação quadrática com um alto coeficiente de correlação linear

  • Relação quadrática; não linear
  • Coeficiente de correlação de Pearson: .971211
Análise Exploratória de Dados em Python

Gráficos de dispersão

sns.scatterplot(data=divorce, x="income_man", y="income_woman")
plt.show()

Um gráfico de dispersão da renda de homens e mulheres no momento do divórcio

Análise Exploratória de Dados em Python

Pairplots

sns.pairplot(data=divorce)
plt.show()

Um pairplot de todas as colunas numéricas na estrutura de dados sobre divórcios

Análise Exploratória de Dados em Python

Pairplots

sns.pairplot(data=divorce, vars=["income_man", "income_woman", "marriage_duration"])
plt.show()

Um pairplot da renda dos parceiros e duração do casamento

Análise Exploratória de Dados em Python

Vamos praticar!

Análise Exploratória de Dados em Python

Preparing Video For Download...