Kümeleme için veri hazırlama

Python ile Kümeleme Analizi

Shaumik Daityari

Business Analyst

Kümleme için veriyi neden hazırlamalıyız?

  • Değişkenlerin birimleri karşılaştırılamaz (ürün boyutları cm, fiyat $)
  • Aynı birimdeki değişkenlerin ölçek ve varyansları çok farklı olabilir (tahıl, seyahat harcamaları)
  • Ham veri kümelemede yanlılığa yol açabilir
  • Kümeler tek bir değişkene aşırı bağımlı olabilir
  • Çözüm: tek tek değişkenlerin normalize edilmesi
Python ile Kümeleme Analizi

Verinin normalize edilmesi

Normalize etme: veriyi standart sapması 1 olacak şekilde yeniden ölçekleme süreci

x_new = x / std_dev(x)

from scipy.cluster.vq import whiten
data = [5, 1, 3, 3, 2, 3, 3, 8, 1, 2, 2, 3, 5]
scaled_data = whiten(data)
print(scaled_data)
[2.73, 0.55, 1.64, 1.64, 1.09, 1.64, 1.64, 4.36, 0.55, 1.09, 1.09, 1.64, 2.73]
Python ile Kümeleme Analizi

Görsel: verinin normalize edilmesi

# Import plotting library
from matplotlib import pyplot as plt

# Initialize original, scaled data
plt.plot(data, 
         label="original")
plt.plot(scaled_data, 
         label="scaled")
# Show legend and display plot
plt.legend()
plt.show()

Python ile Kümeleme Analizi

Sırada: birkaç kendin yap alıştırması

Python ile Kümeleme Analizi

Preparing Video For Download...