Clusteranalyse: de juiste clusteringmethode kiezen

Machine Learning-sollicitatievragen oefenen in Python

Lisa Stuart

Data Scientist

Clustering-algoritmen

  • Features >> observaties
  • Trainen van model lastiger
  • Steunen op afstandsberekeningen
  • Meest gebruikte unsupervised techniek
Machine Learning-sollicitatievragen oefenen in Python

Praktische toepassingen van clustering

  • Klantsegmentatie
  • Documentclassificatie
  • Fraudedetectie (verzekering/transactie)
  • Beeldsegmentatie
  • Anomaliedetectie
  • En meer...
Machine Learning-sollicitatievragen oefenen in Python

Afstandsmaat: Manhattan- (taxi)afstand

Manhattan-plot

1 https://en.wikipedia.org/wiki/Taxicab_geometry
Machine Learning-sollicitatievragen oefenen in Python

Afstandsmaat: Euclidische afstand

Euclidische plot

1 http://rosalind.info/glossary/euclidean-distance/
Machine Learning-sollicitatievragen oefenen in Python

K-means

K-means-stappen

  1. Initiële centroiden
  2. Wijs elke observatie toe aan dichtstbijzijnde centroid
  3. Maak nieuwe centroiden
  4. Herhaal stap 2 en 3
1 http://sherrytowers.com/2013/10/24/k-means-clustering/
Machine Learning-sollicitatievragen oefenen in Python

Hiërarchische agglomeratieve clustering

Dendrogram hiërarchische clustering

1 https://www.datanovia.com/en/lessons/agglomerative-hierarchical-clustering/
Machine Learning-sollicitatievragen oefenen in Python

Agglomeratieve clustering: linkage-methoden

  • Ward-linkage
  • Maximum/complete linkage
  • Gemiddelde linkage
  • Single linkage
Machine Learning-sollicitatievragen oefenen in Python

Een clustering-algoritme kiezen

Clusterafstanden

  • Beoordeling clusterstabiliteit
  • K-means en HC gebruiken Euclidische afstand
  • Inter- en intra-clusterafstanden

"Een passende ongelijkheidsmaat is veel belangrijker voor succesvolle clustering dan de keuze van het algoritme." - uit Elements of Statistical Learning

1 https://slideplayer.com/slide/8363774/
Machine Learning-sollicitatievragen oefenen in Python

Clusteringfuncties

Functie/methode retourneert
sklearn.cluster.Kmeans K-means-clusteringalgoritme
sklearn.cluster.AgglomerativeClustering Agglomeratief clusteringalgoritme
kmeans.inertia_ SS-afstanden van observaties tot dichtstbijzijnde clustercentrum
scipy.cluster.hierarchy als sch Hiërarchische clustering voor dendrogrammen
sch.dendrogram() Dendrogram-functie
Machine Learning-sollicitatievragen oefenen in Python

Laten we oefenen!

Machine Learning-sollicitatievragen oefenen in Python

Preparing Video For Download...