Korelasi

Pengantar Statistika di Python

Maggie Matsui

Content Developer, DataCamp

Hubungan antara dua variabel

Plot sebar kebiasaan tidur mamalia: total tidur/hari vs tidur REM/hari

  • x = variabel penjelas/independen
  • y = variabel respons/dependen
Pengantar Statistika di Python

Koefisien korelasi

  • Mengkuantifikasi hubungan linear antara dua variabel
  • Angka antara -1 dan 1
  • Besar nilai = kekuatan hubungan
  • Tanda (+ atau -) = arah hubungan
Pengantar Statistika di Python

Magnitudo = kekuatan hubungan

0,99 (hubungan sangat kuat)

Plot sebar dengan titik sangat dekat ke garis tak terlihat

Pengantar Statistika di Python

Magnitudo = kekuatan hubungan

0,99 (hubungan sangat kuat)

Plot sebar dengan titik sangat dekat ke garis tak terlihat

              0,75 (hubungan kuat)

Plot sebar dengan titik lebih jauh dari garis tak terlihat

Pengantar Statistika di Python

Magnitudo = kekuatan hubungan

0,56 (hubungan moderat)

Plot sebar dengan titik makin jauh dari garis tak terlihat

Pengantar Statistika di Python

Magnitudo = kekuatan hubungan

0,56 (hubungan moderat)

Plot sebar dengan titik makin jauh dari garis tak terlihat

             0,21 (hubungan lemah)

Plot sebar dengan titik hampir acak sepenuhnya

Pengantar Statistika di Python

Magnitudo = kekuatan hubungan

0,04 (tidak ada hubungan)

Plot sebar dengan titik benar‑benar acak

  • Mengetahui nilai x tidak memberi info apa pun tentang y
Pengantar Statistika di Python

Tanda = arah

0,75: saat x naik, y naik

Plot sebar: y naik saat x naik

-0,75: saat x naik, y turun

Plot sebar: y turun saat x naik

Pengantar Statistika di Python

Memvisualisasikan hubungan

import seaborn as sns

sns.scatterplot(x="sleep_total", y="sleep_rem", data=msleep)
plt.show()

Plot sebar sleep_rem vs. sleep_total

Pengantar Statistika di Python

Menambahkan garis tren

import seaborn as sns
sns.lmplot(x="sleep_total", y="sleep_rem", data=msleep, ci=None)

plt.show()

Plot sebar sleep_rem vs. sleep_total dengan garis tren linear

Pengantar Statistika di Python

Menghitung korelasi

msleep['sleep_total'].corr(msleep['sleep_rem'])
0.751755

 

msleep['sleep_rem'].corr(msleep['sleep_total'])
0.751755
Pengantar Statistika di Python

Banyak cara menghitung korelasi

  • Digunakan di kursus ini: korelasi produk‑momen Pearson (r)
    • Paling umum
    • $\bar{x} =$ rata‑rata $x$
    • $\sigma_x =$ simpangan baku $x$

$$ r = \frac{1}{n - 1} \sum_{i=1}^{n} \frac{(x_i - \bar{x})(y_i - \bar{y})}{\sigma_x \cdot \sigma_y}$$

  • Variasi rumus ini:
    • Kendall's tau
    • Spearman's rho
Pengantar Statistika di Python

Ayo berlatih!

Pengantar Statistika di Python

Preparing Video For Download...