Beperkingen van hiërarchisch clusteren

Clusteranalyse in Python

Shaumik Daityari

Business Analyst

Snelheid meten bij hiërarchisch clusteren

  • timeit-module
  • Meet de snelheid van de methode .linkage()
  • Gebruik willekeurig gegenereerde punten
  • Voer meerdere iteraties uit om te extrapoleren
Clusteranalyse in Python

Gebruik van de timeit-module

from scipy.cluster.hierarchy import linkage
import pandas as pd
import random, timeit

points = 100 df = pd.DataFrame({'x': random.sample(range(0, points), points), 'y': random.sample(range(0, points), points)})
%timeit linkage(df[['x', 'y']], method = 'ward', metric = 'euclidean')
1.02 ms ± 133 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
Clusteranalyse in Python

Vergelijking van runtime van de linkage-methode

  • Toenemende runtime bij meer datapunten
  • Kwadratische toename van runtime
  • Niet haalbaar voor grote datasets

Clusteranalyse in Python

Zo meteen: oefeningen

Clusteranalyse in Python

Preparing Video For Download...