Limiti del clustering k-means

Analisi di cluster in Python

Shaumik Daityari

Business Analyst

Limiti del clustering k-means

  • Come scegliere _K_ (numero di cluster)?
  • Impatto dei seed
  • Bias verso cluster di pari dimensione
Analisi di cluster in Python

Impatto dei seed

Inizializza un seed casuale

from numpy import random
random.seed(12)

Seed: np.array(1000, 2000)

Dimensioni cluster: 29, 29, 43, 47, 52

 

Seed: np.array(1,2,3)

Dimensioni cluster: 26, 31, 40, 50, 53

Analisi di cluster in Python

Impatto dei seed: grafici

Seed: np.array(1000, 2000)

Seed: np.array(1,2,3)

Analisi di cluster in Python

Cluster uniformi in k-means

Analisi di cluster in Python

Cluster uniformi in k-means: confronto

K-means con 3 cluster

Clustering gerarchico con 3 cluster

Analisi di cluster in Python

Considerazioni finali

  • Ogni tecnica ha pro e contro
  • Valuta dimensione e pattern dei dati prima di scegliere l’algoritmo
  • Il clustering è una fase esplorativa dell’analisi
Analisi di cluster in Python

Prossimo: esercizi

Analisi di cluster in Python

Preparing Video For Download...