Clusteranalyse: het optimale aantal clusters kiezen

Machine Learning-sollicitatievragen oefenen in Python

Lisa Stuart

Data Scientist

Methoden voor optimale k

  • Silhouetmethode
  • Elbow-methode
Machine Learning-sollicitatievragen oefenen in Python

Silhouetcoëfficiënt

  • Bestaat uit 2 scores
    • Gemiddelde afstand tussen elke observatie en alle anderen:
      • in dezelfde cluster
      • in de dichtstbijzijnde cluster
Machine Learning-sollicitatievragen oefenen in Python

Waarden van de silhouetcoëfficiënt

  • Tussen -1 en 1
    • 1
      • dicht bij anderen in dezelfde cluster
      • ver weg van anderen in andere clusters
    • -1
      • niet dicht bij anderen in dezelfde cluster
      • dicht bij anderen in andere clusters
    • 0
      • duidt overlappende clusters aan
Machine Learning-sollicitatievragen oefenen in Python

Silhouetscore

Silhouetscore-plot

1 https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html
Machine Learning-sollicitatievragen oefenen in Python

Elbow-methode

Elbow-methode plot

1 https://www.datanovia.com/en/lessons/determining-the-optimal-number-of-clusters-3-must-know-methods/
Machine Learning-sollicitatievragen oefenen in Python

Functies voor optimale k-selectie

Functie/methode geeft terug
sklearn.cluster.KMeans K-means clusteringalgoritme
sklearn.metrics.silhouette_score score tussen -1 en 1 als maat voor clusterstabiliteit
kmeans.inertia_ SS-afstanden van observaties tot dichtstbijzijnde clustercentrum
range(start, stop) lijst met waarden vanaf start t/m exclusief stop
list.append(kmeans.inertia_) voegt inertia-waarde toe aan lijst
Machine Learning-sollicitatievragen oefenen in Python

Laten we oefenen!

Machine Learning-sollicitatievragen oefenen in Python

Preparing Video For Download...