PCA: terugblik en volgende stappen

Unsupervised learning in R

Hank Roark

Senior Data Scientist at Boeing

Terugblik tot nu toe

  • Data gedownload en klaargemaakt voor modelleren
  • Verkennende data-analyse
  • Principalecomponentenanalyse uitgevoerd
Unsupervised learning in R

Volgende stappen

  • Hiërarchisch clusteren afronden
  • K-means clusteren afronden
  • PCA en clusteren combineren
  • Resultaten hiërarchisch clusteren vergelijken met diagnose
  • Hiërarchisch vs. k-means vergelijken
  • PCA als preprocessing-stap voor clusteren
Unsupervised learning in R

Terugblik: hiërarchisch clusteren in R

# Calculates similarity as Euclidean distance between observations
s <- dist(x)

# Returns hierarchical clustering model
hclust(s)
Call:
hclust(d = s)

Cluster method   : complete 
Distance         : euclidean 
Number of objects: 50 
Unsupervised learning in R

Terugblik: k-means in R

$$

# k-means algorithm with 5 centers, run 20 times
kmeans(x, centers = 5, nstart = 20)

$$

  • Eén observatie per rij, één feature per kolom
  • k-means heeft een willekeurig component
  • Meerdere runs verhogen de kans op het beste model
Unsupervised learning in R

Laten we oefenen!

Unsupervised learning in R

Preparing Video For Download...