PCA’nın Ardındaki Lineer Cebir

R ile Veri Bilimi için Lineer Cebir

Eric Eager

Data Scientist at Pro Football Focus

Teori

$A^T$ matrisi, $A$’nın transpozu, $A$’nın satır ve sütunlarının yer değiştirmesiyle elde edilir.

Veri kümeniz bir $A$ matrisindeyse ve her sütunun ortalaması o sütundaki her öğeden çıkarılmışsa, şu matrisin $i,j$’inci elemanı

$$\frac{A^TA}{n - 1},$$

burada $n$, $A$’nın satır sayısıdır, matristeki verilerin $i$ ve $j$’inci sütunlarındaki değişkenlerin _kovaryansı_dır.

Dolayısıyla, $\frac{A^TA}{n - 1}$’in köşegenindeki $i$’inci eleman, matrisin $i$’inci sütununun _varyansı_dır.

print(A)

     [,1] [,2]
[1,]    1    2
[2,]    2    4
[3,]    3    6
[4,]    4    8
[5,]    5   10

A[, 1] <- A[, 1] - mean(A[, 1])
A[, 2] <- A[, 2] - mean(A[, 2]) 
print(A)

     [,1] [,2]
[1,]   -2   -4
[2,]   -1   -2
[3,]    0    0
[4,]    1    2
[5,]    2    4

t(A)%*%A/(nrow(A) - 1)

     [,1] [,2]
[1,]  2.5    5
[2,]  5.0   10

cov(A[, 1], A[, 2])

var(A[, 1])

2.5

var(A[, 2])

$\frac{A^TA}{n - 1}$’in özdeğerleri $\lambda_1, \lambda_2, ... \lambda_n$ gerçektir ve karşılık gelen özvektörleri _dik_tir; yani farklı yönleri gösterir.
Veri kümesinin toplam varyansı, $\frac{A^TA}{n - 1}$’in özdeğerlerinin toplamıdır.
Bu özvektörler $v_1, v_2, ..., v_n$, matris $A$’daki veri kümesinin _temel bileşenleri_dir.
$v_j$’nin yönü, veri kümesindeki toplam varyansın $\lambda_j$’ini açıklar. $\lambda_j$ veya $\lambda_1, \lambda_2, ... \lambda_n$’in bir alt kümesi toplam varyansın önemli bir kısmını açıklıyorsa, boyut indirgeme fırsatı vardır.

eigen(t(A)%*%A/(nrow(A) - 1))

eigen() decomposition
$`values`
[1] 12.5  0.0

$vectors
          [,1]       [,2]
[1,] 0.4472136 -0.8944272
[2,] 0.8944272  0.4472136

R ile Veri Bilimi için Lineer Cebir