Correlazione

Introduzione alle statistiche in R

Relazioni tra due variabili

Grafico a dispersione delle abitudini di sonno dei mammiferi, che mostra il sonno totale al giorno vs REM sonno al giorno

  • x = variabile esplicativa/indipendente
  • y = response/dependent variable
Introduzione alle statistiche in R

Coefficiente di correlazione

  • Quantifica la relazione lineare tra due variabili
  • Numero compreso tra -1 e 1
  • La grandezza corrisponde alla forza della relazione
  • Il segno (+ o -) corrisponde alla direzione della relazione
Introduzione alle statistiche in R

Magnitudine = forza della relazione

0,99 (relazione molto forte)

Grafico di dispersione con punti molto vicini a una linea invisibile

Introduzione alle statistiche in R

Magnitudine = forza della relazione

0,99 (relazione molto forte)

Grafico di dispersione con punti molto vicini a una linea invisibile

0,75 (relazione forte)

Grafico di dispersione con punti più lontani dalla linea invisibile

Introduzione alle statistiche in R

Magnitudine = forza della relazione

0,56 (relazione moderata)

Grafico di dispersione con punti ancora più lontani dalla linea invisibile

Introduzione alle statistiche in R

Magnitudine = forza della relazione

0,56 (relazione moderata)

Grafico di dispersione con punti ancora più lontani dalla linea invisibile

0,21 (relazione debole)

Un diagramma di dispersione con punti che sembrano quasi del tutto casuali

Introduzione alle statistiche in R

Magnitudine = forza della relazione

0,04 (nessuna relazione)

Grafico di dispersione con punti che sembrano completamente sparsi a caso

  • Conoscere il valore di x non ci dice nulla riguardo a y
Introduzione alle statistiche in R

Segno = direzione

0,75: all'aumentare di x aumenta anche y

Grafico di dispersione in cui y aumenta all'aumentare di x

-0,75: quando x aumenta, y diminuisce.

Grafico di dispersione in cui y diminuisce all'aumentare di x

Introduzione alle statistiche in R

Visualizzazione delle relazioni

ggplot(df, aes(x, y)) +
  geom_point()

Grafico di dispersione in cui y diminuisce all'aumentare di x

Introduzione alle statistiche in R

Aggiunta di una linea di tendenza

ggplot(df, aes(x, y)) +
  geom_point() +

geom_smooth(method = "lm", se = FALSE)

Grafico di dispersione in cui y diminuisce all'aumentare di x con linea di tendenza

Introduzione alle statistiche in R

Calcolo della correlazione

cor(df$x, df$y)
-0.7472765

 

cor(df$y, df$x)
-0.7472765
Introduzione alle statistiche in R

Correlazione con valori mancanti

df$x
-3.2508382  -9.1599807   3.4515013   4.1505899          NA   11.9806140   ...
cor(df$x, df$y)
NA
cor(df$x, df$y, use = "pairwise.complete.obs")
-0.7471757
Introduzione alle statistiche in R

Molti modi per calcolare la correlazione

  • Utilizzato in questo corso: Correlazione prodotto-momento di Pearson   ($r$)
    • I più comuni
    • $\bar{x} =$ media di $x$

$$ r =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} $$

  • Variazioni di questa formula:
    • Tau di Kendall
    • Rho di Spearman
Introduzione alle statistiche in R

Esercitiamoci!

Introduzione alle statistiche in R

Preparing Video For Download...