Hiyerarşik kümelemenin sınırlamaları

Python ile Kümeleme Analizi

Shaumik Daityari

Business Analyst

Hiyerarşik kümelemede hız ölçümü

  • timeit modülü
  • .linkage() yönteminin hızını ölçün
  • Rastgele üretilen noktalar kullanın
  • Ekstrapolasyon için farklı yinelemeler çalıştırın
Python ile Kümeleme Analizi

timeit modülünün kullanımı

from scipy.cluster.hierarchy import linkage
import pandas as pd
import random, timeit

points = 100 df = pd.DataFrame({'x': random.sample(range(0, points), points), 'y': random.sample(range(0, points), points)})
%timeit linkage(df[['x', 'y']], method = 'ward', metric = 'euclidean')
1.02 ms ± 133 µs döngü başına (7 çalıştırmanın ort. ± std. sap., her biri 1000 döngü)
Python ile Kümeleme Analizi

linkage yönteminin çalışma süresi karşılaştırması

  • Veri noktaları arttıkça çalışma süresi artar
  • Çalışma süresi karesel artar
  • Büyük veri kümeleri için uygulanabilir değil

Python ile Kümeleme Analizi

Sırada egzersizler var

Python ile Kümeleme Analizi

Preparing Video For Download...