Beperkingen van k-means-clustering

Clusteranalyse in Python

Shaumik Daityari

Business Analyst

Beperkingen van k-means-clustering

  • Hoe kies je de juiste _K_ (aantal clusters)?
  • Impact van seeds
  • Vooringenomen naar clusters van gelijke grootte
Clusteranalyse in Python

Impact van seeds

Initialiseer een willekeurige seed

from numpy import random
random.seed(12)

Seed: np.array(1000, 2000)

Clustergroottes: 29, 29, 43, 47, 52

 

Seed: np.array(1,2,3)

Clustergroottes: 26, 31, 40, 50, 53

Clusteranalyse in Python

Impact van seeds: plots

Seed: np.array(1000, 2000)

Seed: np.array(1,2,3)

Clusteranalyse in Python

Uniforme clusters in k-means

Clusteranalyse in Python

Uniforme clusters in k-means: een vergelijking

K-means-clustering met 3 clusters

Hiërarchische clustering met 3 clusters

Clusteranalyse in Python

Tot slot

  • Elke techniek heeft voor- en nadelen
  • Kijk naar datasize en patronen voordat je een algoritme kiest
  • Clustering is een verkennende analysefase
Clusteranalyse in Python

Nu: oefeningen

Clusteranalyse in Python

Preparing Video For Download...