Correlazione

Introduzione alla statistica in R

Maggie Matsui

Content Developer, DataCamp

Relazioni tra due variabili

Grafico a dispersione delle abitudini di sonno dei mammiferi: sonno totale/giorno vs REM/giorno

  • x = variabile esplicativa/indipendente
  • y = variabile risposta/dipendente
Introduzione alla statistica in R

Coefficiente di correlazione

  • Quantifica la relazione lineare tra due variabili
  • Numero tra -1 e 1
  • La magnitudo corrisponde alla forza della relazione
  • Il segno (+ o -) indica la direzione della relazione
Introduzione alla statistica in R

Magnitudo = forza della relazione

0,99 (relazione molto forte)

Diagramma a dispersione con punti molto vicini a una linea invisibile

Introduzione alla statistica in R

Magnitudo = forza della relazione

0,99 (relazione molto forte)

Diagramma a dispersione con punti molto vicini a una linea invisibile

0,75 (relazione forte)

Diagramma a dispersione con punti più lontani dalla linea invisibile

Introduzione alla statistica in R

Magnitudo = forza della relazione

0,56 (relazione moderata)

Diagramma a dispersione con punti ancora più lontani dalla linea invisibile

Introduzione alla statistica in R

Magnitudo = forza della relazione

0,56 (relazione moderata)

Diagramma a dispersione con punti ancora più lontani dalla linea invisibile

0,21 (relazione debole)

Diagramma a dispersione con punti quasi del tutto dispersi a caso

Introduzione alla statistica in R

Magnitudo = forza della relazione

0,04 (nessuna relazione)

Diagramma a dispersione con punti completamente dispersi a caso

  • Conoscere il valore di x non dice nulla su y
Introduzione alla statistica in R

Segno = direzione

0,75: al crescere di x, cresce y

Diagramma a dispersione dove y aumenta al crescere di x

-0,75: al crescere di x, diminuisce y

Diagramma a dispersione dove y diminuisce al crescere di x

Introduzione alla statistica in R

Visualizzare le relazioni

ggplot(df, aes(x, y)) +
  geom_point()

Diagramma a dispersione dove y diminuisce al crescere di x

Introduzione alla statistica in R

Aggiungere una linea di tendenza

ggplot(df, aes(x, y)) +
  geom_point() +

geom_smooth(method = "lm", se = FALSE)

Diagramma a dispersione dove y diminuisce al crescere di x con linea di tendenza

Introduzione alla statistica in R

Calcolare la correlazione

cor(df$x, df$y)
-0.7472765

 

cor(df$y, df$x)
-0.7472765
Introduzione alla statistica in R

Correlazione con valori mancanti

df$x
-3.2508382  -9.1599807   3.4515013   4.1505899          NA   11.9806140   ...
cor(df$x, df$y)
NA
cor(df$x, df$y, use = "pairwise.complete.obs")
-0.7471757
Introduzione alla statistica in R

Molti modi per calcolare la correlazione

  • Usato in questo corso: correlazione di Pearson   ($r$)
    • La più comune
    • $\bar{x} =$ media di $x$

$$ r =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} $$

  • Varianti di questa formula:
    • Tau di Kendall
    • Rho di Spearman
Introduzione alla statistica in R

Passons à la pratique !

Introduzione alla statistica in R

Preparing Video For Download...