Kewaspadaan korelasi

Pengantar Statistika di R

Maggie Matsui

Content Developer, DataCamp

Hubungan non-linear

plot sebar variabel dengan hubungan kuadratik

$$r = 0.18$$

Pengantar Statistika di R

Hubungan non-linear

Yang terlihat:

plot sebar variabel dengan hubungan kuadratik dengan garis tren kuadratik

Yang dilihat koefisien korelasi:

plot sebar variabel dengan hubungan kuadratik dengan garis tren linear

Pengantar Statistika di R

Korelasi hanya menangkap hubungan linear

Jangan gunakan korelasi secara membabi buta

cor(df$x, df$y)
0.1786163

Selalu visualisasikan data Anda

plot sebar variabel dengan hubungan kuadratik

Pengantar Statistika di R

Data tidur mamalia

msleep
   name                       vore  sleep_total awake  bodywt
 1 Cheetah                    carni        12.1  11.9  50    
 2 Owl monkey                 omni         17     7     0.48 
 3 Mountain beaver            herbi        14.4   9.6   1.35 
 4 Greater short-tailed shrew omni         14.9   9.1   0.019
 5 Cow                        herbi         4    20   600    
 6 Three-toed sloth           herbi        14.4   9.6   3.85 
 ... 
Pengantar Statistika di R

Berat tubuh vs waktu terjaga

Plot sebar berat tubuh vs waktu terjaga

cor(msleep$bodywt, msleep$awake)
0.3119801
Pengantar Statistika di R

Distribusi berat tubuh

Histogram variabel bodywt

Pengantar Statistika di R

Transformasi log

msleep %>%
  mutate(log_bodywt = log(bodywt)) %>%

ggplot(aes(log_bodywt, awake)) + geom_point() + geom_smooth(method = "lm", se = FALSE)

 

cor(msleep$log_bodywt, msleep$awake)
0.5687943

Plot sebar log bodywt vs awake

Pengantar Statistika di R

Transformasi lain

  • Transformasi log (log(x))
  • Transformasi akar kuadrat (sqrt(x))
  • Transformasi resiprok (1 / x)

  • Kombinasi, mis.:

    • log(x) dan log(y)
    • sqrt(x) dan 1 / y
Pengantar Statistika di R

Mengapa pakai transformasi?

  • Metode statistik tertentu memerlukan hubungan linear
    • Koefisien korelasi
    • Regresi linear
Pengantar Statistika di R

Korelasi tidak menyiratkan kausalitas

x berkorelasi dengan y bukan berarti x menyebabkan y

Plot sebar konsumsi margarin per kapita di AS vs tingkat perceraian di Maine. Variabel sangat berkorelasi dengan koefisien 0,99

Pengantar Statistika di R

Perancu (confounding)

  Minum kopi (x) mengarah ke kanker paru (y)

Pengantar Statistika di R

Perancu (confounding)

  Minum kopi (x) mengarah ke kanker paru (y) dengan merokok (perancu) di atas

Pengantar Statistika di R

Perancu (confounding)

  Minum kopi (x) mengarah ke kanker paru (y) dengan merokok (perancu). Panah ganda antara merokok dan minum kopi, berlabel "asosiasi".

Pengantar Statistika di R

Perancu (confounding)

  Minum kopi (x) mengarah ke kanker paru (y) dengan merokok (perancu). Panah ganda antara merokok dan minum kopi, berlabel "asosiasi". Panah dari merokok ke kanker paru berlabel "kausalitas"

Pengantar Statistika di R

Perancu (confounding)

  Minum kopi (x) dengan panah ganda ke kanker paru (y) berlabel "asosiasi". Panah ganda antara merokok dan minum kopi, berlabel "asosiasi". Panah dari merokok ke kanker paru berlabel "kausalitas".

  Hari libur (x) mengarah ke penjualan ritel (y). Diskon khusus (perancu) memiliki panah ganda ke hari libur dan panah tunggal ke penjualan ritel.

Pengantar Statistika di R

Ayo berlatih!

Pengantar Statistika di R

Preparing Video For Download...