Koppeling en praktijk bij clusteren

Unsupervised learning in R

Hank Roark

Senior Data Scientist at Boeing

Clusters koppelen bij hiërarchisch clusteren

  • Hoe wordt afstand tussen clusters bepaald? Welke regels?
  • Vier manieren om te bepalen welke clusters je koppelt
    • Complete: paargewijze similariteit tussen alle observaties in cluster 1 en 2; gebruikt de grootste similariteit
    • Single: idem, maar gebruikt de kleinste similariteit
    • Average: idem, maar gebruikt de gemiddelde similariteit
    • Centroid: vindt het centroid van cluster 1 en 2; gebruikt de similariteit tussen die twee centroids
Unsupervised learning in R

Koppelmethoden: complete en average

dendrogrammen: complete en average

Unsupervised learning in R

Koppelmethode: single

dendrogram: single

Unsupervised learning in R

Koppelmethode: centroid

dendrogram: centroid

Unsupervised learning in R

Linkage in R

# Hiërarchische clustering met verschillende methoden
hclust.complete <- hclust(d, method = "complete")
hclust.average <- hclust(d, method = "average")
hclust.single <- hclust(d, method = "single")
Unsupervised learning in R

Praktische zaken

  • Verschillende schalen geven ongewenste clusteringresultaten
  • Oplossing: schaal data zodat features dezelfde mean en standard deviation hebben
    • Trek de mean van een feature af van alle observaties
    • Deel elke feature door de standard deviation van die feature
    • Genormaliseerde features hebben mean 0 en standard deviation 1
Unsupervised learning in R

Praktische zaken

# Check of schalen nodig is
colMeans(x)
-0.1337828  0.0594019
apply(x, 2, sd)
1.974376 2.112357
Unsupervised learning in R

Praktische zaken

# Maak nieuwe matrix met kolommen met mean 0 en sd 1
scaled_x <- scale(x)
colMeans(scaled_x)
2.775558e-17 3.330669e-17
apply(scaled_x, 2, sd)
1 1
Unsupervised learning in R

Laten we oefenen!

Unsupervised learning in R

Preparing Video For Download...