Correlazioni

Analisi dei dati da sondaggio in Python

EbunOluwa Andrew

Data Scientist

Correlazioni nell’analisi di sondaggi

  • Interdipendenza tra variabili
    • Se una cambia, cambia anche l’altra
  • Misura la relazione lineare tra due voci del sondaggio
  • La correlazione NON implica causalità
    • Possibile terza variabile che influisce
    • Non si può stabilire quale variabile causa l’altra

La correlazione non è causalità. Scritta

Analisi dei dati da sondaggio in Python

Forza e direzione della correlazione

  • Coefficienti di correlazione → “r”
  • Da -1,0 a 1,0
    • -1 o 1 = relazione perfetta
    • 0 = nessuna relazione significativa
    • < 0 = relazione negativa
    • 0 = relazione positiva

  • Con pochi dati servono correlazioni forti per la significatività statistica

Correlazione tra pezzi di puzzle

Analisi dei dati da sondaggio in Python

Funzione .corr()

  • .corr()
  • _prima colonna_.corr(_seconda colonna_)

Tipi di correlazione

Analisi dei dati da sondaggio in Python

.corr() esempio: healthy_city

| City       | Rank | Life expectancy_years | Happiness levels |
|------------|------|-----------------------|------------------|
| Amsterdam  |    1 |                  81.2 |             7.44 |
| Sydney     |    2 |                  82.1 |             7.22 |
| Vienna     |    3 |                    81 |             7.29 |
| Stockholm  |    4 |                  81.8 |             7.35 |
| Copenhagen |    5 |                  79.8 |             7.64 |
| Helsinki   |    6 |                  80.4 |              7.8 |
| Fukuoka    |    7 |                  83.2 |             5.87 |
| Berlin     |    8 |                  80.6 |             7.07 |
| Barcelona  |    9 |                  82.2 |              6.4 |
Analisi dei dati da sondaggio in Python

.corr() esempio: healthy_city

import matplotlib.pyplot as plt
plt.scatter(healthy_city['Life expectancy_years'],
            healthy_city['Happiness levels'])

diagramma a dispersione happy_survey

Analisi dei dati da sondaggio in Python

.corr() esempio: healthy_city

happy_survey['Happiness levels'].corr(
  happy_survey['Life expectancy_years'])
0.7245870841569987
Analisi dei dati da sondaggio in Python

Ayo berlatih!

Analisi dei dati da sondaggio in Python

Preparing Video For Download...