Corrélation

Introduction aux statistiques en R

Maggie Matsui

Content Developer, DataCamp

Relations entre deux variables

Graphique des habitudes de sommeil des mammifères, montrant le sommeil total par jour par rapport au sommeil paradoxal par jour

  • x = variable explicative/indépendante
  • y = variable de réponse/dépendante
Introduction aux statistiques en R

Coefficient de corrélation

  • Quantifie la relation linéaire entre deux variables
  • Nombre compris entre -1 et 1
  • La valeur absolue correspond à la force de la relation
  • Le signe (+ ou -) correspond au sens de la relation
Introduction aux statistiques en R

Valeur absolue = force de la relation

0,99 (relation très forte)

Diagramme en nuages de points avec des points très proches d’une ligne invisible

Introduction aux statistiques en R

Valeur absolue = force de la relation

0,99 (relation très forte)

Diagramme en nuages de points avec des points très proches d’une ligne invisible

0,75 (relation forte)

Diagramme en nuages de points avec des points plus éloignés de la ligne invisible

Introduction aux statistiques en R

Valeur absolue = force de la relation

0,56 (relation modérée)

Diagramme en nuages de points avec des points encore plus éloignés de la ligne invisible

Introduction aux statistiques en R

Valeur absolue = force de la relation

0,56 (relation modérée)

Diagramme en nuages de points avec des points encore plus éloignés de la ligne invisible

0,21 (relation faible)

Diagramme en nuages de points avec des points qui semblent presque totalement dispersés au hasard

Introduction aux statistiques en R

Valeur absolue = force de la relation

0,04 (pas de relation)

Diagramme de dispersion avec des points qui semblent totalement dispersés au hasard

  • Connaître la valeur de x ne nous apprend rien sur y
Introduction aux statistiques en R

Signe = direction

0,75 : lorsque x augmente, y augmente

Diagramme en nuages de points où y augmente avec x

-0,75 : lorsque x augmente, y diminue

Diagramme en nuages de points où y diminue lorsque x augmente

Introduction aux statistiques en R

Visualiser les relations

ggplot(df, aes(x, y)) +
  geom_point()

Diagramme en nuages de points où y diminue lorsque x augmente

Introduction aux statistiques en R

Ajout d’une ligne de tendance

ggplot(df, aes(x, y)) +
  geom_point() +

geom_smooth(method = "lm", se = FALSE)

Nuage de points où y diminue à mesure que x augmente avec ligne de tendance

Introduction aux statistiques en R

Calcul de la corrélation

cor(df$x, df$y)
-0.7472765

 

cor(df$y, df$x)
-0.7472765
Introduction aux statistiques en R

Corrélation avec les valeurs manquantes

df$x
-3.2508382  -9.1599807   3.4515013   4.1505899          NA   11.9806140   ...
cor(df$x, df$y)
NA
cor(df$x, df$y, use = "pairwise.complete.obs")
-0.7471757
Introduction aux statistiques en R

Plusieurs façons de calculer la corrélation

  • Formule utilisée dans ce cours : corrélation produit-moment de Pearson  ($r$)
    • La plus courante
    • $\bar{x} =$ moyenne de $x$

$$ r =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} $$

  • Variations de cette formule :
    • Tau de Kendall
    • Rho de Spearman
Introduction aux statistiques en R

Passons à la pratique !

Introduction aux statistiques en R

Preparing Video For Download...