Kümeleme bağlama ve pratik konular

R ile Denetimsiz Öğrenme

Hank Roark

Senior Data Scientist at Boeing

Hiyerarşik kümelemede kümeleri bağlama

  • Kümeler arası mesafe nasıl belirlenir? Kurallar?
  • Bağlanacak kümeyi belirleyen dört yöntem
    • Complete: küme 1 ve 2’deki tüm gözlemler arası ikili benzerlik, en büyük benzerlik kullanılır
    • Single: aynı, ancak en küçük benzerlik kullanılır
    • Average: aynı, ancak ortalama benzerlik kullanılır
    • Centroid: küme 1 ve 2’nin kütle merkezleri bulunur, iki merkez arasındaki benzerlik kullanılır
R ile Denetimsiz Öğrenme

Bağlama yöntemleri: complete ve average

complete ve average dendrogramları

R ile Denetimsiz Öğrenme

Bağlama yöntemi: single

single dendrogramı

R ile Denetimsiz Öğrenme

Bağlama yöntemi: centroid

centroid dendrogramı

R ile Denetimsiz Öğrenme

R'de bağlama

# Farklı yöntemlerle hiyerarşik kümeleme modelleri kurma
hclust.complete <- hclust(d, method = "complete")
hclust.average <- hclust(d, method = "average")
hclust.single <- hclust(d, method = "single")
R ile Denetimsiz Öğrenme

Pratik konular

  • Farklı ölçeklerdeki veriler, kümelemede istenmeyen sonuçlar doğurabilir
  • Çözüm: özellikleri aynı ortalama ve standart sapmaya ölçeklemek
    • Bir özelliğin ortalamasını tüm gözlemlerden çıkarın
    • Her özelliği kendi standart sapmasına bölün
    • Normalize özelliklerin ortalaması 0, standart sapması 1 olur
R ile Denetimsiz Öğrenme

Pratik konular

# Ölçekleme gerekli mi kontrol edin
colMeans(x)
-0.1337828  0.0594019
apply(x, 2, sd)
1.974376 2.112357
R ile Denetimsiz Öğrenme

Pratik konular

# Ortalaması 0, sd'si 1 olan sütunlarla yeni bir matris üretin
scaled_x <- scale(x)
colMeans(scaled_x)
2.775558e-17 3.330669e-17
apply(scaled_x, 2, sd)
1 1
R ile Denetimsiz Öğrenme

Hadi pratik yapalım!

R ile Denetimsiz Öğrenme

Preparing Video For Download...