Analyse de données exploratoires en Python
Izzy Weber
Curriculum Manager, DataCamp
numeric_only=True
pour éviter les erreurs avec les colonnes non numériques.divorce.corr(numeric_only=True)
income_man income_woman marriage_duration num_kids marriage_year
income_man 1.000 0.318 0.085 0.041 0.019
income_woman 0.318 1.000 0.079 -0.018 0.026
marriage_duration 0.085 0.079 1.000 0.447 -0.812
num_kids 0.041 -0.018 0.447 1.000 -0.461
marriage_year 0.019 0.026 -0.812 -0.461 1.000
Calcule le coefficient de corrélation de Pearson.
sns.heatmap(divorce.corr(numeric_only=True), annot=True)
plt.show()
divorce["divorce_date"].min()
Timestamp('2000-01-08 00:00:00')
divorce["divorce_date"].max()
Timestamp('2015-11-03 00:00:00')
![Une relation forte avec un faible coefficient de corrélation linéaire (https://assets.datacamp.com/production/repositories/6180/datasets/a96c1adc7b040f6256759596241becce487b5450/quad_low_corr.png = 94)
-6.48e-18
![Une relation quadratique avec un coefficient de corrélation linéaire élevé (https://assets.datacamp.com/production/repositories/6180/datasets/917fed936c229ecc4c26fdc129b2c0be7eba962b/high_corr_quadratic.png = 94)
.971211
sns.scatterplot(data=divorce, x="income_man", y="income_woman")
plt.show()
sns.pairplot(data=divorce)
plt.show()
sns.pairplot(data=divorce, vars=["income_man", "income_woman", "marriage_duration"])
plt.show()
Analyse de données exploratoires en Python