Korelasi

Pengantar Statistika di R

Maggie Matsui

Content Developer, DataCamp

Hubungan antara dua variabel

Plot sebar kebiasaan tidur mamalia, menunjukkan total tidur per hari vs tidur REM per hari

  • x = variabel penjelas/independen
  • y = variabel respons/dependen
Pengantar Statistika di R

Koefisien korelasi

  • Mengukur hubungan linear antara dua variabel
  • Angka antara -1 dan 1
  • Besar nilai mencerminkan kekuatan hubungan
  • Tanda (+ atau -) menunjukkan arah hubungan
Pengantar Statistika di R

Magnitudo = kekuatan hubungan

0,99 (hubungan sangat kuat)

Plot sebar dengan titik sangat dekat ke garis tak terlihat

Pengantar Statistika di R

Magnitudo = kekuatan hubungan

0,99 (hubungan sangat kuat)

Plot sebar dengan titik sangat dekat ke garis tak terlihat

0,75 (hubungan kuat)

Plot sebar dengan titik lebih jauh dari garis tak terlihat

Pengantar Statistika di R

Magnitudo = kekuatan hubungan

0,56 (hubungan sedang)

Plot sebar dengan titik lebih jauh dari garis tak terlihat

Pengantar Statistika di R

Magnitudo = kekuatan hubungan

0,56 (hubungan sedang)

Plot sebar dengan titik lebih jauh dari garis tak terlihat

0,21 (hubungan lemah)

Plot sebar dengan titik hampir acak sepenuhnya

Pengantar Statistika di R

Magnitudo = kekuatan hubungan

0,04 (tidak ada hubungan)

Plot sebar dengan titik acak sepenuhnya

  • Mengetahui nilai x tidak memberi info apa pun tentang y
Pengantar Statistika di R

Tanda = arah

0,75: saat x naik, y naik

Plot sebar di mana y naik saat x naik

-0,75: saat x naik, y turun

Plot sebar di mana y turun saat x naik

Pengantar Statistika di R

Memvisualisasikan hubungan

ggplot(df, aes(x, y)) +
  geom_point()

Plot sebar di mana y turun saat x naik

Pengantar Statistika di R

Menambahkan garis tren

ggplot(df, aes(x, y)) +
  geom_point() +

geom_smooth(method = "lm", se = FALSE)

Plot sebar di mana y turun saat x naik dengan garis tren

Pengantar Statistika di R

Menghitung korelasi

cor(df$x, df$y)
-0.7472765

 

cor(df$y, df$x)
-0.7472765
Pengantar Statistika di R

Korelasi dengan nilai hilang

df$x
-3.2508382  -9.1599807   3.4515013   4.1505899          NA   11.9806140   ...
cor(df$x, df$y)
NA
cor(df$x, df$y, use = "pairwise.complete.obs")
-0.7471757
Pengantar Statistika di R

Banyak cara menghitung korelasi

  • Digunakan di kursus ini: Korelasi produk-momen Pearson (r)
    • Paling umum
    • $\bar{x} =$ rata-rata $x$

$$ r =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} $$

  • Variasi rumus ini:
    • Kendall's tau
    • Spearman's rho
Pengantar Statistika di R

Ayo berlatih!

Pengantar Statistika di R

Preparing Video For Download...