Corrélation

Introduction aux statistiques en Python

Maggie Matsui

Content Developer, DataCamp

Relations entre deux variables

Graphique des habitudes de sommeil des mammifères, montrant le sommeil total par jour par rapport au sommeil paradoxal par jour

  • x = variable explicative/indépendante
  • y = variable de réponse/dépendante
Introduction aux statistiques en Python

Coefficient de corrélation

  • Quantifie la relation linéaire entre deux variables
  • Nombre compris entre -1 et 1
  • La valeur absolue correspond à la force de la relation
  • Le signe (+ ou -) correspond au sens de la relation
Introduction aux statistiques en Python

Valeur absolue = force de la relation

0,99 (relation très forte)

Diagramme en nuages de points avec des points très proches d’une ligne invisible

Introduction aux statistiques en Python

Valeur absolue = force de la relation

0,99 (relation très forte)

Diagramme en nuages de points avec des points très proches d’une ligne invisible

              0,75 (relation forte)

Diagramme en nuages de points avec des points plus éloignés de la ligne invisible

Introduction aux statistiques en Python

Valeur absolue = force de la relation

0,56 (relation modérée)

Diagramme en nuages de points avec des points encore plus éloignés de la ligne invisible

Introduction aux statistiques en Python

Valeur absolue = force de la relation

0,56 (relation modérée)

Diagramme en nuages de points avec des points encore plus éloignés de la ligne invisible

             0,21 (relation faible)

Diagramme en nuages de points avec des points qui semblent presque totalement dispersés au hasard

Introduction aux statistiques en Python

Valeur absolue = force de la relation

0,04 (pas de relation)

Diagramme de dispersion avec des points qui semblent totalement dispersés au hasard

  • Connaître la valeur de x ne nous apprend rien sur y
Introduction aux statistiques en Python

Signe = direction

0,75 :  lorsque x augmente, y augmente

Diagramme en nuages de points où y augmente avec x

-0,75 :  lorsque x augmente, y diminue

Diagramme en nuages de points où y diminue lorsque x augmente

Introduction aux statistiques en Python

Visualiser les relations

import seaborn as sns

sns.scatterplot(x="sleep_total", y="sleep_rem", data=msleep)
plt.show()

Graphique en nuages de points de sleep_rem en fonction de sleep_total

Introduction aux statistiques en Python

Ajout d’une ligne de tendance

import seaborn as sns
sns.lmplot(x="sleep_total", y="sleep_rem", data=msleep, ci=None)

plt.show()

Graphique en nuages de points de sleep_rem en fonction de sleep_total avec ligne de tendance linéaire

Introduction aux statistiques en Python

Calcul de la corrélation

msleep['sleep_total'].corr(msleep['sleep_rem'])
0.751755

 

msleep['sleep_rem'].corr(msleep['sleep_total'])
0.751755
Introduction aux statistiques en Python

Plusieurs façons de calculer la corrélation

  • Formule utilisée dans ce cours : corrélation produit-moment de Pearson  ($r$)
    • La plus courante
    • $\bar{x} =$ moyenne de $x$
    • $\sigma_x =$ écart-type de $x$

$$ r = \frac{1}{n - 1} \sum_{i=1}^{n} \frac{(x_i - \bar{x})(y_i - \bar{y})}{\sigma_x \cdot \sigma_y}$$

  • Variations de cette formule :
    • Tau de Kendall
    • Rho de Spearman
Introduction aux statistiques en Python

Passons à la pratique !

Introduction aux statistiques en Python

Preparing Video For Download...