Praktische aandachtspunten bij PCA

Unsupervised learning in R

Hank Roark

Senior Data Scientist at Boeing

Praktische aandachtspunten bij PCA

  • Data schalen
  • Missende waarden:
    • Observaties met missende waarden droppen
    • Missende waarden imputeren/schatten
  • Categorische data:
    • Categorische features niet gebruiken
    • Categorische features coderen als getallen
Unsupervised learning in R

mtcars-dataset

data(mtcars)
head(mtcars)
                   mpg cyl disp  hp drat    wt  qsec vs
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0
Valiant           18.1   6  225 105 2.76 3.460 20.22  1
Unsupervised learning in R

Schalen

# Gemiddelden en standaarddeviaties verschillen sterk
round(colMeans(mtcars), 2)
   mpg    cyl   disp     hp   drat     wt   qsec     vs
 20.09   6.19 230.72 146.69   3.60   3.22  17.85   0.44
round(apply(mtcars, 2, sd), 2)
   mpg    cyl   disp     hp   drat     wt   qsec     vs
  6.03   1.79 123.94  68.56   0.53   0.98   1.79   0.50
Unsupervised learning in R

Belang van data schalen

vergelijking van featurebelang vóór en na schalen

Unsupervised learning in R

Schalen en PCA in R

prcomp(x, center = TRUE, scale = FALSE)
Unsupervised learning in R

Laten we oefenen!

Unsupervised learning in R

Preparing Video For Download...