Berapa banyak klaster?

Analisis Klaster di Python

Shaumik Daityari

Business Analyst

Cara menemukan k yang tepat?

  • Tidak ada metode absolut untuk menemukan jumlah klaster (k) yang tepat pada k-means
  • Metode siku

Analisis Klaster di Python

Distortion: ulasan

  • Distortion: jumlah kuadrat jarak titik ke pusat klaster
  • Menurun saat jumlah klaster bertambah
  • Menjadi nol saat jumlah klaster = jumlah titik
  • Plot siku: grafik garis antara jumlah klaster dan distortion

Analisis Klaster di Python

Metode siku

  • Plot siku: plot jumlah klaster vs distortion
  • Plot siku membantu mengindikasikan jumlah klaster dalam data
Analisis Klaster di Python

Metode siku di Python

# Declaring variables for use
distortions = []

num_clusters = range(2, 7)
# Populating distortions for various clusters
for i in num_clusters:
    centroids, distortion = kmeans(df[['scaled_x', 'scaled_y']], i)
    distortions.append(distortion)
# Plotting elbow plot data
elbow_plot_data = pd.DataFrame({'num_clusters': num_clusters,
                                'distortions': distortions})

sns.lineplot(x='num_clusters', y='distortions', 
             data = elbow_plot_data)
plt.show()
Analisis Klaster di Python

Analisis Klaster di Python

Catatan akhir tentang metode siku

  • Hanya memberi indikasi k optimal (jumlah klaster)
  • Tidak selalu menentukan k yang tepat
  • Metode lain: silhouette rata-rata dan gap statistic
Analisis Klaster di Python

Selanjutnya: latihan

Analisis Klaster di Python

Preparing Video For Download...