Korelasyon

R ile İstatistiğe Giriş

Maggie Matsui

Content Developer, DataCamp

İki değişken arasındaki ilişkiler

Memelilerin uyku alışkanlıklarının saçılım grafiği: günde toplam uyku vs günde REM uykusu

  • x = açıklayıcı/bağımsız değişken
  • y = yanıt/bağımlı değişken
R ile İstatistiğe Giriş

Korelasyon katsayısı

  • İki değişken arasındaki doğrusal ilişkiyi sayısallaştırır
  • -1 ile 1 arasında bir sayı
  • Büyüklük, ilişkinin gücünü gösterir
  • İşaret (+ veya -), ilişkinin yönünü gösterir
R ile İstatistiğe Giriş

Büyüklük = ilişkinin gücü

0.99 (çok güçlü ilişki)

Görünmez bir çizgiye çok yakın noktalarla saçılım grafiği

R ile İstatistiğe Giriş

Büyüklük = ilişkinin gücü

0.99 (çok güçlü ilişki)

Görünmez bir çizgiye çok yakın noktalarla saçılım grafiği

0.75 (güçlü ilişki)

Görünmez çizgiden daha uzak noktalarla saçılım grafiği

R ile İstatistiğe Giriş

Büyüklük = ilişkinin gücü

0.56 (orta ilişki)

Görünmez bir çizgiden daha da uzak noktalarla saçılım grafiği

R ile İstatistiğe Giriş

Büyüklük = ilişkinin gücü

0.56 (orta ilişki)

Görünmez bir çizgiden daha da uzak noktalarla saçılım grafiği

0.21 (zayıf ilişki)

Noktaların neredeyse tamamen rastgele dağıldığı saçılım grafiği

R ile İstatistiğe Giriş

Büyüklük = ilişkinin gücü

0.04 (ilişki yok)

Noktaların tamamen rastgele dağıldığı saçılım grafiği

  • x değerini bilmek y hakkında bir şey söylemez
R ile İstatistiğe Giriş

İşaret = yön

0.75: x artarken y artar

x artarken y’nin arttığı saçılım grafiği

-0.75: x artarken y azalır

x artarken y’nin azaldığı saçılım grafiği

R ile İstatistiğe Giriş

İlişkileri görselleştirme

ggplot(df, aes(x, y)) +
  geom_point()

x artarken y’nin azaldığı saçılım grafiği

R ile İstatistiğe Giriş

Trend çizgisi ekleme

ggplot(df, aes(x, y)) +
  geom_point() +

geom_smooth(method = "lm", se = FALSE)

Trend çizgili, x artarken y’nin azaldığı saçılım grafiği

R ile İstatistiğe Giriş

Korelasyonun hesaplanması

cor(df$x, df$y)
-0.7472765

 

cor(df$y, df$x)
-0.7472765
R ile İstatistiğe Giriş

Eksik değerlerle korelasyon

df$x
-3.2508382  -9.1599807   3.4515013   4.1505899          NA   11.9806140   ...
cor(df$x, df$y)
NA
cor(df$x, df$y, use = "pairwise.complete.obs")
-0.7471757
R ile İstatistiğe Giriş

Korelasyonu hesaplamanın birçok yolu

  • Bu derste kullanılan: Pearson çarpım-moment korelasyonu ($r$)
    • En yaygın
    • $\bar{x} =$ $x$’in ortalaması

$$ r =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} $$

  • Bu formülün varyasyonları:
    • Kendall tau
    • Spearman rho
R ile İstatistiğe Giriş

Hadi pratik yapalım!

R ile İstatistiğe Giriş

Preparing Video For Download...