Corrélation

Analyse de données exploratoires en Python

Izzy Weber

Curriculum Manager, DataCamp

Corrélation

  • Décrit la direction et la force de la relation entre deux variables.
  • Définissez numeric_only=True pour éviter les erreurs avec les colonnes non numériques.
divorce.corr(numeric_only=True)

                    income_man  income_woman  marriage_duration  num_kids  marriage_year 
 income_man         1.000       0.318         0.085              0.041     0.019         
 income_woman       0.318       1.000         0.079              -0.018    0.026         
 marriage_duration  0.085       0.079         1.000              0.447     -0.812        
 num_kids           0.041       -0.018        0.447              1.000     -0.461        
 marriage_year      0.019       0.026         -0.812             -0.461    1.000

Calcule le coefficient de corrélation de Pearson.

Analyse de données exploratoires en Python

Les cartes thermiques de corrélation

sns.heatmap(divorce.corr(numeric_only=True), annot=True)
plt.show()

Carte thermique des corrélations entre les divorces

Analyse de données exploratoires en Python

Corrélation dans son contexte

divorce["divorce_date"].min()
Timestamp('2000-01-08 00:00:00')
divorce["divorce_date"].max()
Timestamp('2015-11-03 00:00:00')
Analyse de données exploratoires en Python

Visualiser les relations

![Une relation forte avec un faible coefficient de corrélation linéaire (https://assets.datacamp.com/production/repositories/6180/datasets/a96c1adc7b040f6256759596241becce487b5450/quad_low_corr.png = 94)

  • Une relation solide, mais non linéaire
  • Coefficient de corrélation de Pearson : -6.48e-18

![Une relation quadratique avec un coefficient de corrélation linéaire élevé (https://assets.datacamp.com/production/repositories/6180/datasets/917fed936c229ecc4c26fdc129b2c0be7eba962b/high_corr_quadratic.png = 94)

  • Relation quadratique ; non linéaire
  • Coefficient de corrélation de Pearson : .971211
Analyse de données exploratoires en Python

Diagrammes en nuages de points

sns.scatterplot(data=divorce, x="income_man", y="income_woman")
plt.show()

un nuage de points représentant les revenus des hommes et des femmes au moment du divorce

Analyse de données exploratoires en Python

Graphiques par paires

sns.pairplot(data=divorce)
plt.show()

Un diagramme par paires de toutes les colonnes numériques dans le DataFrame sur les divorces

Analyse de données exploratoires en Python

Graphiques par paires

sns.pairplot(data=divorce, vars=["income_man", "income_woman", "marriage_duration"])
plt.show()

un graphique par paires représentant les revenus des partenaires et la durée du mariage

Analyse de données exploratoires en Python

Passons à la pratique !

Analyse de données exploratoires en Python

Preparing Video For Download...