Clusteranalyse in Python
Shaumik Daityari
Business Analyst
kmeans(obs, k_or_guess, iter, thresh, check_finite)
obs: gestandaardiseerde observatiesk_or_guess: aantal clustersiter: aantal iteraties (standaard: 20)thres: drempel (standaard: 1e-05)check_finite: controle of observaties alleen eindige waarden bevatten (standaard: True)Retourneert twee objecten: clustercentra, distortie

vq(obs, code_book, check_finite=True)
obs: gestandaardiseerde observatiescode_book: clustercentracheck_finite: controle of observaties alleen eindige waarden bevatten (standaard: True)Retourneert twee objecten: een lijst met clusterlabels, een lijst met distorties
kmeans retourneert één waarde voor distortievq retourneert een lijst met distorties.# Import kmeans and vq functions
from scipy.cluster.vq import kmeans, vq
# Generate cluster centers and labels
cluster_centers, _ = kmeans(df[['scaled_x', 'scaled_y']], 3)
df['cluster_labels'], _ = vq(df[['scaled_x', 'scaled_y']], cluster_centers)
# Plot clusters
sns.scatterplot(x='scaled_x', y='scaled_y', hue='cluster_labels', data=df)
plt.show()

Clusteranalyse in Python