Unsupervised Learning in Python
Benjamin Wilson
Director of Research at lateral.io
species setosa versicolor virginica
labels
0 0 2 36
1 50 0 0
2 0 48 14
pandas-bibliotheekspeciesprint(species)
['setosa', 'setosa', 'versicolor', 'virginica', ... ]
import pandas as pd
df = pd.DataFrame({'labels': labels, 'species': species})
print(df)
labels species
0 1 setosa
1 1 setosa
2 2 versicolor
3 2 virginica
4 1 setosa
...
ct = pd.crosstab(df['labels'], df['species'])
print(ct)
species setosa versicolor virginica
labels
0 0 2 36
1 50 0 0
2 0 48 14
Hoe evalueer je een clustering als er geen soortinformatie is?
Alleen met samples en hun clusterlabels
Een goede clustering heeft compacte clusters
Samples binnen elk cluster dicht bij elkaar
fit() beschikbaar als attribuut inertia_from sklearn.cluster import KMeans
model = KMeans(n_clusters=3)
model.fit(samples)
print(model.inertia_)
78.9408414261


Unsupervised Learning in Python