k-means kümelemeye giriş

Python ile Kümeleme Analizi

Shaumik Daityari

Business Analyst

Neden k-means kümeleme?

  • Hiyerarşik kümelemenin kritik dezavantajı: çalışma süresi
  • K-means, büyük veri kümelerinde çok daha hızlıdır
Python ile Kümeleme Analizi

Adım 1: Küme merkezlerini üretme

kmeans(obs, k_or_guess, iter, thresh, check_finite)
  • obs: standartlaştırılmış gözlemler
  • k_or_guess: küme sayısı
  • iter: iterasyon sayısı (öntanımlı: 20)
  • thres: eşik (öntanımlı: 1e-05)
  • check_finite: gözlemlerin yalnızca sonlu sayı içerip içermediğini kontrol et (öntanımlı: True)

İki nesne döndürür: küme merkezleri, bozulma

Python ile Kümeleme Analizi

Bozulma nasıl hesaplanır?

Python ile Kümeleme Analizi

Adım 2: Küme etiketlerini üretme

vq(obs, code_book, check_finite=True)
  • obs: standartlaştırılmış gözlemler
  • code_book: küme merkezleri
  • check_finite: gözlemlerin yalnızca sonlu sayı içerip içermediğini kontrol et (öntanımlı: True)

İki nesne döndürür: küme etiketleri listesi, bozulmalar listesi

Python ile Kümeleme Analizi

Bozulmalar hakkında not

  • kmeans tek bir bozulma değeri döndürür
  • vq bozulmaların bir listesini döndürür.
Python ile Kümeleme Analizi

k-means çalıştırma

# kmeans ve vq fonksiyonlarını içe aktarın
from scipy.cluster.vq import kmeans, vq
# Küme merkezlerini ve etiketleri üretin
cluster_centers, _ = kmeans(df[['scaled_x', 'scaled_y']], 3)
df['cluster_labels'], _ = vq(df[['scaled_x', 'scaled_y']], cluster_centers)
# Kümeleri görselleştirin
sns.scatterplot(x='scaled_x', y='scaled_y', hue='cluster_labels', data=df)
plt.show()
Python ile Kümeleme Analizi

Python ile Kümeleme Analizi

Sırada: alıştırmalar!

Python ile Kümeleme Analizi

Preparing Video For Download...