Correlazione

Introduzione alla statistica

George Boorman

Curriculum Manager, DataCamp

Relazioni tra due variabili

grafico_a_dispersione_che_mostra_costi_mensili_della_palestra_vs_costo_di_una_bottiglia_d_acqua.png

Introduzione alla statistica

Coefficiente di correlazione di Pearson

  • Pubblicato da Karl Pearson nel 1896!
  • Quantifica l’intensità della relazione tra due variabili
  • Numero tra meno uno e uno
  • La magnitudine corrisponde all’intensità della relazione
  • Il segno (+ o -) indica la direzione della relazione
1 https://royalsocietypublishing.org/doi/10.1098/rsta.1896.0007
Introduzione alla statistica

Relazioni lineari

  • Lineare = variazioni proporzionali tra variabile dipendente e indipendente

grafico_a_dispersione_di_costi_palestra_vs_acqua_con_annotazioni_per_osservazioni_di_acqua_a_un_dollaro_e_palestra_a_trenta_dollari_più_acqua_a_uno_e_cinquanta_e_palestra_a_quarantacinque_dollari_e_coefficiente_di_correlazione_uguale_a_zero_punto_tre_sei.png

Introduzione alla statistica

Valori = intensità della relazione

0,99 (relazione molto forte)

Grafico a dispersione con punti molto vicini a una linea invisibile.png

Introduzione alla statistica

Valori = intensità della relazione

0,99 (relazione molto forte)

Grafico a dispersione con punti molto vicini a una linea invisibile.png

0,75 (relazione forte)

Grafico a dispersione con punti più lontani dalla linea invisibile.png

Introduzione alla statistica

Valori = intensità della relazione

0,56 (relazione moderata)

Grafico a dispersione con punti ancora più lontani dalla linea invisibile.png

Introduzione alla statistica

Valori = intensità della relazione

0,56 (relazione moderata)

Grafico a dispersione con punti ancora più lontani dalla linea invisibile.png

0,21 (relazione debole)

Grafico a dispersione con punti quasi completamente sparsi a caso.png

Introduzione alla statistica

Valori = intensità della relazione

0,04 (nessuna relazione)

Grafico a dispersione con punti completamente sparsi a caso.png

  • Conoscere il valore di x non dice nulla su y
Introduzione alla statistica

Segno = direzione

0,75: al crescere di x, cresce y

Grafico a dispersione dove y cresce al crescere di x.png

-0,75: al crescere di x, diminuisce y

Grafico a dispersione dove y diminuisce al crescere di x.png

Introduzione alla statistica

Costi palestra vs. costi acqua

grafico_a_dispersione_che_mostra_costi_mensili_della_palestra_vs_costo_di_una_bottiglia_d_acqua.png

Introduzione alla statistica

Aggiungere una trendline

grafico_a_dispersione_dei_costi_palestra_vs_costo_bottiglia_acqua_con_trendline_e_p_uguale_zero_punto_trentacinque.png

Introduzione alla statistica

Aspettativa di vita vs. costo di una bottiglia d’acqua

grafico_a_dispersione_di_aspettativa_di_vita_vs_costo_bottiglia_acqua_con_trendline_e_p_uguale_zero_punto_sessantuno.png

Introduzione alla statistica

La correlazione non implica causalità

  • Aumentare il costo dell’acqua farà aumentare l’aspettativa di vita?

bottiglie_d_acqua.png

coppia_anziana.png

  • Correlazione ≠ causalità
1 Image credit: https://unsplash.com/@micheile; https://unsplash.com/@jon_chng
Introduzione alla statistica

Variabili confondenti

  • Cos’altro potrebbe influenzare l’aspettativa di vita?

    • Una bottiglia d’acqua costa di più nei Paesi con economie forti
    • Questi Paesi di solito offrono accesso a sanità di alta qualità
  • La forza dell’economia potrebbe essere una variabile confondente

    • Non è misurata, ma può influenzare la relazione tra le nostre variabili

medico.jpg

Introduzione alla statistica

Ayo berlatih!

Introduzione alla statistica

Preparing Video For Download...