Avvertenze sulla correlazione

Introduzione alle statistiche in R

Relazioni non lineari

grafico di dispersione delle variabili con una relazione quadratica

$$r = 0.18$$

Introduzione alle statistiche in R

Relazioni non lineari

Cosa vediamo:

grafico di dispersione delle variabili con una relazione quadratica e una linea di tendenza quadratica

Cosa vede il coefficiente di correlazione:

grafico di dispersione delle variabili con una relazione quadratica e una linea di tendenza lineare

Introduzione alle statistiche in R

La correlazione tiene conto solo delle relazioni lineari

La correlazione non dovrebbe essere utilizzata alla cieca

cor(df$x, df$y)
0.1786163

Visualizza sempre i tuoi dati

grafico di dispersione di variabili con una relazione quadratica

Introduzione alle statistiche in R

Dati sul sonno dei mammiferi

msleep
   name                       vore  sleep_total awake  bodywt
 1 Cheetah                    carni        12.1  11.9  50    
 2 Owl monkey                 omni         17     7     0.48 
 3 Mountain beaver            herbi        14.4   9.6   1.35 
 4 Greater short-tailed shrew omni         14.9   9.1   0.019
 5 Cow                        herbi         4    20   600    
 6 Three-toed sloth           herbi        14.4   9.6   3.85 
 ... 
Introduzione alle statistiche in R

Peso corporeo vs. tempo di veglia

Grafico di dispersione del peso corporeo rispetto al tempo di veglia

cor(msleep$bodywt, msleep$awake)
0.3119801
Introduzione alle statistiche in R

Distribuzione del peso corporeo

Istogramma della variabile bodywt

Introduzione alle statistiche in R

Trasformazione in log

msleep %>%
  mutate(log_bodywt = log(bodywt)) %>%

ggplot(aes(log_bodywt, awake)) + geom_point() + geom_smooth(method = "lm", se = FALSE)

 

cor(msleep$log_bodywt, msleep$awake)
0.5687943

Grafico di dispersione del log bodywt rispetto alla veglia

Introduzione alle statistiche in R

Altre trasformazioni

  • Trasformazione in log (log(x))
  • Trasformazione in radice quadrata (sqrt(x))
  • Trasformazione reciproca (1 / x)

  • Combinazioni di questi, ad esempio:

    • log(x) e log(y)
    • sqrt(x) e 1 / y
Introduzione alle statistiche in R

Perché utilizzare una trasformazione?

  • Alcuni metodi statistici si basano sul fatto che le variabili abbiano una relazione lineare.
    • Coefficiente di correlazione
    • Regressione lineare
Introduzione alle statistiche in R

La correlazione non implica la causalità

x è correlato con y non significa che x causa y

Grafico di dispersione del consumo pro capite di margarina nel sito US rispetto al tasso di divorzio nel Maine. Le variabili sono altamente correlate con un coefficiente di correlazione di 0,99

Introduzione alle statistiche in R

Confusione

  Il consumo di caffè (x) indica il cancro ai polmoni (y)

Introduzione alle statistiche in R

Confusione

  Il consumo di caffè (x) indica il cancro ai polmoni (y) con il fumo (confondente) di cui sopra

Introduzione alle statistiche in R

Confusione

  Il consumo di caffè (x) indica il cancro ai polmoni (y) con il fumo (confonditore). Doppia freccia tra il fumo e il consumo di caffè, con l'etichetta "associazione".

Introduzione alle statistiche in R

Confusione

  Il consumo di caffè (x) indica il cancro ai polmoni (y) con il fumo (confonditore). Doppia freccia tra il fumo e il consumo di caffè, con l'etichetta "associazione". La freccia dal fumo al cancro ai polmoni è etichettata come "causalità".

Introduzione alle statistiche in R

Confusione

  Il consumo di caffè (x) con doppia freccia verso il cancro ai polmoni (y) etichettato come "associazione". Doppia freccia tra il fumo e il consumo di caffè, con l'etichetta "associazione". Freccia dal fumo al cancro ai polmoni etichettata come "causalità".

  Le vacanze (x) indicano le vendite al dettaglio (y). Le offerte speciali (confonditore) hanno una doppia freccia rispetto alle festività e una singola freccia rispetto alle vendite al dettaglio.

Introduzione alle statistiche in R

Esercitiamoci!

Introduzione alle statistiche in R

Preparing Video For Download...