Limiti del clustering gerarchico

Analisi di cluster in Python

Shaumik Daityari

Business Analyst

Misurare la velocità nel clustering gerarchico

  • Modulo timeit
  • Misura la velocità di .linkage()
  • Usa punti generati a caso
  • Esegui più iterazioni per estrapolare
Analisi di cluster in Python

Uso del modulo timeit

from scipy.cluster.hierarchy import linkage
import pandas as pd
import random, timeit

points = 100 df = pd.DataFrame({'x': random.sample(range(0, points), points), 'y': random.sample(range(0, points), points)})
%timeit linkage(df[['x', 'y']], method = 'ward', metric = 'euclidean')
1.02 ms ± 133 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
Analisi di cluster in Python

Confronto dei tempi della funzione linkage

  • Tempo di esecuzione cresce con i punti
  • Aumento quadratico del tempo
  • Non adatto a dataset grandi

Analisi di cluster in Python

Avanti: esercizi

Analisi di cluster in Python

Preparing Video For Download...