Attenzione alla correlazione

Introduzione alla statistica in R

Maggie Matsui

Content Developer, DataCamp

Relazioni non lineari

diagramma di dispersione di variabili con relazione quadratica

$$r = 0.18$$

Introduzione alla statistica in R

Relazioni non lineari

Cosa vediamo:

diagramma di dispersione con relazione quadratica e curva quadratica

Cosa vede il coefficiente di correlazione:

diagramma di dispersione con relazione quadratica e retta lineare

Introduzione alla statistica in R

La correlazione coglie solo relazioni lineari

Non usare la correlazione alla cieca

cor(df$x, df$y)
0.1786163

Visualizza sempre i dati

diagramma di dispersione con relazione quadratica

Introduzione alla statistica in R

Dati sul sonno dei mammiferi

msleep
   name                       vore  sleep_total awake  bodywt
 1 Cheetah                    carni        12.1  11.9  50    
 2 Owl monkey                 omni         17     7     0.48 
 3 Mountain beaver            herbi        14.4   9.6   1.35 
 4 Greater short-tailed shrew omni         14.9   9.1   0.019
 5 Cow                        herbi         4    20   600    
 6 Three-toed sloth           herbi        14.4   9.6   3.85 
 ... 
Introduzione alla statistica in R

Peso corporeo vs tempo da svegli

Diagramma di dispersione: peso corporeo vs tempo da svegli

cor(msleep$bodywt, msleep$awake)
0.3119801
Introduzione alla statistica in R

Distribuzione del peso corporeo

Istogramma della variabile bodywt

Introduzione alla statistica in R

Trasformazione log

msleep %>%
  mutate(log_bodywt = log(bodywt)) %>%

ggplot(aes(log_bodywt, awake)) + geom_point() + geom_smooth(method = "lm", se = FALSE)

 

cor(msleep$log_bodywt, msleep$awake)
0.5687943

Diagramma di dispersione: log(bodywt) vs awake

Introduzione alla statistica in R

Altre trasformazioni

  • Trasformazione log (log(x))
  • Radice quadrata (sqrt(x))
  • Reciproca (1 / x)

  • Combinazioni, ad es.:

    • log(x) e log(y)
    • sqrt(x) e 1 / y
Introduzione alla statistica in R

Perché usare una trasformazione?

  • Alcuni metodi statistici assumono relazioni lineari
    • Coefficiente di correlazione
    • Regressione lineare
Introduzione alla statistica in R

La correlazione non implica causalità

x è correlata a y non significa x causa y

Diagramma di dispersione: consumo di margarina pro capite negli USA vs tasso di divorzi in Maine. Variabili altamente correlate, coefficiente 0,99

Introduzione alla statistica in R

Confondimento

  Bere caffè (x) che punta a tumore ai polmoni (y)

Introduzione alla statistica in R

Confondimento

  Bere caffè (x) che punta a tumore ai polmoni (y) con fumo (confondente) sopra

Introduzione alla statistica in R

Confondimento

  Bere caffè (x) che punta a tumore ai polmoni (y) con fumo (confondente). Doppia freccia tra fumo e caffè, etichetta "associazione".

Introduzione alla statistica in R

Confondimento

  Bere caffè (x) che punta a tumore ai polmoni (y) con fumo (confondente). Doppia freccia tra fumo e caffè, etichetta "associazione". Freccia da fumo a tumore ai polmoni etichettata "causalità"

Introduzione alla statistica in R

Confondimento

  Bere caffè (x) con doppia freccia verso tumore ai polmoni (y) etichettata "associazione". Doppia freccia tra fumo e caffè, etichetta "associazione". Freccia da fumo a tumore ai polmoni etichettata "causalità".

  Festività (x) punta a vendite retail (y). Offerte speciali (confondente) ha doppia freccia con festività e freccia singola verso vendite retail.

Introduzione alla statistica in R

Passons à la pratique !

Introduzione alla statistica in R

Preparing Video For Download...