Pengelompokan: linkage dan hal praktis

Unsupervised Learning di R

Hank Roark

Senior Data Scientist at Boeing

Menghubungkan klaster pada hierarchical clustering

  • Bagaimana jarak antar klaster ditentukan? Aturannya?
  • Empat metode untuk menentukan klaster mana yang dihubungkan
    • Complete: kemiripan berpasangan semua observasi di klaster 1 dan 2, gunakan kemiripan terbesar
    • Single: sama, tapi gunakan kemiripan terkecil
    • Average: sama, tapi gunakan rata-rata kemiripan
    • Centroid: cari centroid klaster 1 dan 2, gunakan kemiripan antar centroid
Unsupervised Learning di R

Metode linkage: complete dan average

dendrogram complete dan average

Unsupervised Learning di R

Metode linkage: single

dendrogram single

Unsupervised Learning di R

Metode linkage: centroid

dendrogram centroid

Unsupervised Learning di R

Linkage di R

# Memasang model hierarchical clustering dengan berbagai metode
hclust.complete <- hclust(d, method = "complete")
hclust.average <- hclust(d, method = "average")
hclust.single <- hclust(d, method = "single")
Unsupervised Learning di R

Hal praktis

  • Skala fitur berbeda dapat memberi hasil klaster yang tidak diinginkan
  • Solusinya: skala data agar fitur punya mean dan simpangan baku yang sama
    • Kurangi setiap nilai fitur dengan meannya
    • Bagi setiap fitur dengan simpangan bakunya
    • Fitur terstandar punya mean 0 dan simpangan baku 1
Unsupervised Learning di R

Hal praktis

# Cek apakah penskalaan diperlukan
colMeans(x)
-0.1337828  0.0594019
apply(x, 2, sd)
1.974376 2.112357
Unsupervised Learning di R

Hal praktis

# Buat matriks baru dengan kolom ber-mean 0 dan sd 1
scaled_x <- scale(x)
colMeans(scaled_x)
2.775558e-17 3.330669e-17
apply(scaled_x, 2, sd)
1 1
Unsupervised Learning di R

Ayo berlatih!

Unsupervised Learning di R

Preparing Video For Download...