Persiapan data untuk analisis klaster

Analisis Klaster di Python

Shaumik Daityari

Business Analyst

Mengapa data perlu dipersiapkan untuk klastering?

  • Variabel memiliki satuan tak sebanding (dimensi produk dalam cm, harga dalam $)
  • Variabel dengan satuan sama punya skala dan varians sangat berbeda (pengeluaran sereal vs. perjalanan)
  • Data mentah dapat menimbulkan bias dalam pengklasteran
  • Klaster bisa sangat bergantung pada satu variabel
  • Solusi: normalisasi tiap variabel
Analisis Klaster di Python

Normalisasi data

Normalisasi: proses menskalakan ulang data agar simpangan baku = 1

x_new = x / std_dev(x)

from scipy.cluster.vq import whiten
data = [5, 1, 3, 3, 2, 3, 3, 8, 1, 2, 2, 3, 5]
scaled_data = whiten(data)
print(scaled_data)
[2.73, 0.55, 1.64, 1.64, 1.09, 1.64, 1.64, 4.36, 0.55, 1.09, 1.09, 1.64, 2.73]
Analisis Klaster di Python

Ilustrasi: normalisasi data

# Import plotting library
from matplotlib import pyplot as plt

# Initialize original, scaled data
plt.plot(data, 
         label="original")
plt.plot(scaled_data, 
         label="scaled")
# Show legend and display plot
plt.legend()
plt.show()

Analisis Klaster di Python

Berikutnya: beberapa latihan DIY

Analisis Klaster di Python

Preparing Video For Download...