Keterbatasan klasterisasi k-means

Analisis Klaster di Python

Shaumik Daityari

Business Analyst

Keterbatasan klasterisasi k-means

  • Bagaimana menentukan _K_ (jumlah klaster) yang tepat?
  • Dampak seed
  • Bias ke klaster berukuran sama
Analisis Klaster di Python

Dampak seed

Inisialisasi seed acak

from numpy import random
random.seed(12)

Seed: np.array(1000, 2000)

Ukuran klaster: 29, 29, 43, 47, 52

 

Seed: np.array(1,2,3)

Ukuran klaster: 26, 31, 40, 50, 53

Analisis Klaster di Python

Dampak seed: plot

Seed: np.array(1000, 2000)

Seed: np.array(1,2,3)

Analisis Klaster di Python

Klaster seragam di k-means

Analisis Klaster di Python

Klaster seragam di k-means: perbandingan

K-means dengan 3 klaster

Klasterisasi hierarkis dengan 3 klaster

Analisis Klaster di Python

Penutup

  • Tiap teknik punya kelebihan dan kekurangan
  • Pertimbangkan ukuran dan pola data sebelum memilih algoritme
  • Klasterisasi adalah tahap eksplorasi analisis
Analisis Klaster di Python

Berikutnya: latihan

Analisis Klaster di Python

Preparing Video For Download...