Dasar-dasar klasterisasi hierarkis

Analisis Klaster di Python

Shaumik Daityari

Business Analyst

Membuat matriks jarak dengan linkage

scipy.cluster.hierarchy.linkage(observations, 
                                method='single', 
                                metric='euclidean', 
                                optimal_ordering=False
)
  • method: cara menghitung kedekatan klaster
  • metric: metrik jarak
  • optimal_ordering: mengurutkan titik data
Analisis Klaster di Python

Metode mana yang sebaiknya digunakan?

  • 'single': berdasarkan dua objek terdekat
  • 'complete': berdasarkan dua objek terjauh
  • 'average': berdasarkan rata-rata aritmetika semua objek
  • 'centroid': berdasarkan rata-rata geometrik semua objek
  • 'median': berdasarkan median semua objek
  • 'ward': berdasarkan jumlah kuadrat
Analisis Klaster di Python

Membuat label klaster dengan fcluster

scipy.cluster.hierarchy.fcluster(distance_matrix, 
                                 num_clusters,
                                 criterion
)
  • distance_matrix: keluaran dari metode linkage()
  • num_clusters: jumlah klaster
  • criterion: cara menentukan ambang pembentukan klaster
Analisis Klaster di Python

Klasterisasi hierarkis dengan metode ward

Analisis Klaster di Python

Klasterisasi hierarkis dengan metode single

Analisis Klaster di Python

Klasterisasi hierarkis dengan metode complete

Analisis Klaster di Python

Pertimbangan akhir dalam memilih metode

  • Tidak ada satu metode yang selalu benar
  • Perlu memahami distribusi data dengan cermat
Analisis Klaster di Python

Ayo berlatih!

Analisis Klaster di Python

Preparing Video For Download...