Correlatie

Exploratory Data Analysis in Python

Izzy Weber

Curriculum Manager, DataCamp

Correlatie

  • Beschrijft richting en sterkte van de relatie tussen twee variabelen
  • Zet numeric_only=True om fouten met niet-numerieke kolommen te voorkomen
divorce.corr(numeric_only=True)

                    income_man  income_woman  marriage_duration  num_kids  marriage_year 
 income_man         1.000       0.318         0.085              0.041     0.019         
 income_woman       0.318       1.000         0.079              -0.018    0.026         
 marriage_duration  0.085       0.079         1.000              0.447     -0.812        
 num_kids           0.041       -0.018        0.447              1.000     -0.461        
 marriage_year      0.019       0.026         -0.812             -0.461    1.000

Berekent de Pearson-correlatiecoëfficiënt

Exploratory Data Analysis in Python

Correlatie-heatmaps

sns.heatmap(divorce.corr(numeric_only=True), annot=True)
plt.show()

Een heatmap van correlaties in de divorce-data

Exploratory Data Analysis in Python

Correlatie in context

divorce["divorce_date"].min()
Timestamp('2000-01-08 00:00:00')
divorce["divorce_date"].max()
Timestamp('2015-11-03 00:00:00')
Exploratory Data Analysis in Python

Relaties visualiseren

Een sterke relatie met een lage lineaire correlatiecoëfficiënt

  • Sterke relatie—maar niet lineair
  • Pearson-correlatiecoëfficiënt: -6.48e-18

Een kwadratische relatie met een hoge lineaire correlatiecoëfficiënt

  • Kwadratische relatie; niet lineair
  • Pearson-correlatiecoëfficiënt: .971211
Exploratory Data Analysis in Python

Spreidingsdiagrammen

sns.scatterplot(data=divorce, x="income_man", y="income_woman")
plt.show()

een spreidingsplot van het inkomen van mannen en vrouwen ten tijde van de scheiding

Exploratory Data Analysis in Python

Pairplots

sns.pairplot(data=divorce)
plt.show()

Een pairplot van alle numerieke kolommen in de divorce-dataframe

Exploratory Data Analysis in Python

Pairplots

sns.pairplot(data=divorce, vars=["income_man", "income_woman", "marriage_duration"])
plt.show()

een pairplot van partnerinkomens en huwelijksduur

Exploratory Data Analysis in Python

Laten we oefenen!

Exploratory Data Analysis in Python

Preparing Video For Download...