Hiyerarşik kümelemenin temelleri

Python ile Kümeleme Analizi

Shaumik Daityari

Business Analyst

linkage ile uzaklık matrisi oluşturma

scipy.cluster.hierarchy.linkage(observations, 
                                method='single', 
                                metric='euclidean', 
                                optimal_ordering=False
)
  • method: kümelerin yakınlığını nasıl hesaplayacağını belirtir
  • metric: uzaklık metriği
  • optimal_ordering: veri noktalarının sırası
Python ile Kümeleme Analizi

Hangi yöntem kullanılmalı?

  • 'single': en yakın iki nesneye göre
  • 'complete': en uzak iki nesneye göre
  • 'average': tüm nesnelerin aritmetik ortalamasına göre
  • 'centroid': tüm nesnelerin geometrik ortalamasına göre
  • 'median': tüm nesnelerin medyanına göre
  • 'ward': kareler toplamına göre
Python ile Kümeleme Analizi

fcluster ile küme etiketleri oluşturma

scipy.cluster.hierarchy.fcluster(distance_matrix, 
                                 num_clusters,
                                 criterion
)
  • distance_matrix: linkage() çıktısı
  • num_clusters: küme sayısı
  • criterion: kümeleri oluşturmak için eşik belirleme yöntemi
Python ile Kümeleme Analizi

Ward yöntemiyle hiyerarşik kümeleme

Python ile Kümeleme Analizi

Single yöntemiyle hiyerarşik kümeleme

Python ile Kümeleme Analizi

Complete yöntemiyle hiyerarşik kümeleme

Python ile Kümeleme Analizi

Yöntem seçimine dair son notlar

  • Her durum için tek doğru yöntem yok
  • Verinin dağılımını dikkatle anlamak gerekir
Python ile Kümeleme Analizi

Hadi birkaç alıştırma yapalım

Python ile Kümeleme Analizi

Preparing Video For Download...