R ile Veri Bilimi için Lineer Cebir
Eric Eager
Data Scientist at Pro Football Focus
$A^T$ matrisi, $A$’nın transpozu, $A$’nın satır ve sütunlarının yer değiştirmesiyle elde edilir.
Veri kümeniz bir $A$ matrisindeyse ve her sütunun ortalaması o sütundaki her öğeden çıkarılmışsa, şu matrisin $i,j$’inci elemanı
$$\frac{A^TA}{n - 1},$$
burada $n$, $A$’nın satır sayısıdır, matristeki verilerin $i$ ve $j$’inci sütunlarındaki değişkenlerin _kovaryansı_dır.
Dolayısıyla, $\frac{A^TA}{n - 1}$’in köşegenindeki $i$’inci eleman, matrisin $i$’inci sütununun _varyansı_dır.
print(A)
[,1] [,2]
[1,] 1 2
[2,] 2 4
[3,] 3 6
[4,] 4 8
[5,] 5 10
A[, 1] <- A[, 1] - mean(A[, 1])
A[, 2] <- A[, 2] - mean(A[, 2])
print(A)
[,1] [,2]
[1,] -2 -4
[2,] -1 -2
[3,] 0 0
[4,] 1 2
[5,] 2 4
t(A)%*%A/(nrow(A) - 1)
[,1] [,2]
[1,] 2.5 5
[2,] 5.0 10
cov(A[, 1], A[, 2])
5
var(A[, 1])
2.5
var(A[, 2])
10
$\frac{A^TA}{n - 1}$’in özdeğerleri $\lambda_1, \lambda_2, ... \lambda_n$ gerçektir ve karşılık gelen özvektörleri _dik_tir; yani farklı yönleri gösterir.
Veri kümesinin toplam varyansı, $\frac{A^TA}{n - 1}$’in özdeğerlerinin toplamıdır.
Bu özvektörler $v_1, v_2, ..., v_n$, matris $A$’daki veri kümesinin _temel bileşenleri_dir.
$v_j$’nin yönü, veri kümesindeki toplam varyansın $\lambda_j$’ini açıklar. $\lambda_j$ veya $\lambda_1, \lambda_2, ... \lambda_n$’in bir alt kümesi toplam varyansın önemli bir kısmını açıklıyorsa, boyut indirgeme fırsatı vardır.
eigen(t(A)%*%A/(nrow(A) - 1))
eigen() decomposition
$`values`
[1] 12.5 0.0
$vectors
[,1] [,2]
[1,] 0.4472136 -0.8944272
[2,] 0.8944272 0.4472136
R ile Veri Bilimi için Lineer Cebir