Introductie tot PCA

Unsupervised learning in R

Hank Roark

Senior Data Scientist at Boeing

Twee methoden voor clusteren

  • Twee methoden voor clusteren: groepen gelijke items vinden
  • Daarna: dimensionaliteitsreductie
    • Structuur in features vinden
    • Helpt bij visualisatie
Unsupervised learning in R

Dimensionaliteitsreductie

  • Een populaire methode is principal component analysis (PCA)
  • Drie doelen bij een lagere-dimensie weergave van features:
    • Lineaire combinaties van variabelen vinden om hoofdcomponenten te maken
    • Zoveel mogelijk variantie behouden
    • Hoofdcomponenten zijn ongecorreleerd (orthogonaal)
Unsupervised learning in R

PCA-intuïtie

spreidingsdiagram

Unsupervised learning in R

PCA-intuïtie

regressielijn

Unsupervised learning in R

PCA-intuïtie

projectie van component-scores

Unsupervised learning in R

Visualisatie van hoog-dimensionale data

verschillende aantallen dimensies voor data

Unsupervised learning in R

Visualisatie

PCA op iris-dataset

Unsupervised learning in R

PCA in R

pr.iris <- prcomp(x = iris[-5],
                  scale = FALSE,
                  center = TRUE)

summary(pr.iris)
Importance of components:
                          PC1     PC2    PC3     PC4
Standard deviation     2.0563 0.49262 0.2797 0.15439
Proportion of Variance 0.9246 0.05307 0.0171 0.00521
Cumulative Proportion  0.9246 0.97769 0.9948 1.00000
Unsupervised learning in R

Laten we oefenen!

Unsupervised learning in R

Preparing Video For Download...