Pengantar PCA

Unsupervised Learning di R

Hank Roark

Senior Data Scientist at Boeing

Dua metode klastering

  • Dua metode klastering: mencari kelompok item homogen
  • Berikutnya, reduksi dimensi
    • Temukan struktur pada fitur
    • Bantu visualisasi
Unsupervised Learning di R

Reduksi dimensi

  • Metode populer: principal component analysis (PCA)
  • Tiga tujuan saat mencari representasi fitur berdimensi lebih rendah:
    • Temukan kombinasi linear variabel untuk membuat principal component
    • Pertahankan varians terbesar dalam data
    • Principal component tidak saling berkorelasi (ortogonal)
Unsupervised Learning di R

Intuisi PCA

diagram pencar

Unsupervised Learning di R

Intuisi PCA

garis regresi

Unsupervised Learning di R

Intuisi PCA

proyeksi skor komponen

Unsupervised Learning di R

Visualisasi data berdimensi tinggi

jumlah dimensi data yang berbeda

Unsupervised Learning di R

Visualisasi

PCA pada dataset iris

Unsupervised Learning di R

PCA di R

pr.iris <- prcomp(x = iris[-5],
                  scale = FALSE,
                  center = TRUE)

summary(pr.iris)
Importance of components:
                          PC1     PC2    PC3     PC4
Standard deviation     2.0563 0.49262 0.2797 0.15439
Proportion of Variance 0.9246 0.05307 0.0171 0.00521
Cumulative Proportion  0.9246 0.97769 0.9948 1.00000
Unsupervised Learning di R

Ayo berlatih!

Unsupervised Learning di R

Preparing Video For Download...