PCA’nın Ardındaki Lineer Cebir

R ile Veri Bilimi için Lineer Cebir

Eric Eager

Data Scientist at Pro Football Focus

Teori

$A^T$ matrisi, $A$’nın transpozu, $A$’nın satır ve sütunlarının yer değiştirmesiyle elde edilir.

Veri kümeniz bir $A$ matrisindeyse ve her sütunun ortalaması o sütundaki her öğeden çıkarılmışsa, şu matrisin $i,j$’inci elemanı

$$\frac{A^TA}{n - 1},$$

burada $n$, $A$’nın satır sayısıdır, matristeki verilerin $i$ ve $j$’inci sütunlarındaki değişkenlerin _kovaryansı_dır.

Dolayısıyla, $\frac{A^TA}{n - 1}$’in köşegenindeki $i$’inci eleman, matrisin $i$’inci sütununun _varyansı_dır.

R ile Veri Bilimi için Lineer Cebir

Teori

print(A)
     [,1] [,2]
[1,]    1    2
[2,]    2    4
[3,]    3    6
[4,]    4    8
[5,]    5   10
A[, 1] <- A[, 1] - mean(A[, 1])
A[, 2] <- A[, 2] - mean(A[, 2]) 
print(A)
     [,1] [,2]
[1,]   -2   -4
[2,]   -1   -2
[3,]    0    0
[4,]    1    2
[5,]    2    4
R ile Veri Bilimi için Lineer Cebir

Teori

t(A)%*%A/(nrow(A) - 1)
     [,1] [,2]
[1,]  2.5    5
[2,]  5.0   10
cov(A[, 1], A[, 2])
5
var(A[, 1])
2.5
var(A[, 2])
10
R ile Veri Bilimi için Lineer Cebir

PCA

  • $\frac{A^TA}{n - 1}$’in özdeğerleri $\lambda_1, \lambda_2, ... \lambda_n$ gerçektir ve karşılık gelen özvektörleri _dik_tir; yani farklı yönleri gösterir.

  • Veri kümesinin toplam varyansı, $\frac{A^TA}{n - 1}$’in özdeğerlerinin toplamıdır.

  • Bu özvektörler $v_1, v_2, ..., v_n$, matris $A$’daki veri kümesinin _temel bileşenleri_dir.

  • $v_j$’nin yönü, veri kümesindeki toplam varyansın $\lambda_j$’ini açıklar. $\lambda_j$ veya $\lambda_1, \lambda_2, ... \lambda_n$’in bir alt kümesi toplam varyansın önemli bir kısmını açıklıyorsa, boyut indirgeme fırsatı vardır.

R ile Veri Bilimi için Lineer Cebir

Örnek

eigen(t(A)%*%A/(nrow(A) - 1))
eigen() decomposition
$`values`
[1] 12.5  0.0

$vectors
          [,1]       [,2]
[1,] 0.4472136 -0.8944272
[2,] 0.8944272  0.4472136
R ile Veri Bilimi için Lineer Cebir

Hadi pratik yapalım!

R ile Veri Bilimi için Lineer Cebir

Preparing Video For Download...