Unsupervised learning: basis

Clusteranalyse in Python

Shaumik Daityari

Business Analyst

Alledaags voorbeeld: Google Nieuws

  • Hoe classificeert Google Nieuws artikelen?
  • Unsupervised learning-algoritme: clusteren
  • Vergelijk veelvoorkomende termen in artikelen om overeenkomst te vinden

Clusteranalyse in Python

Gelabelde en ongelabelde data

Data zonder labels

  • Punt 1: (1, 2)
  • Punt 2: (2, 2)
  • Punt 3: (3, 1)

Data met labels

  • Punt 1: (1, 2), Label: Gevarenzone
  • Punt 2: (2, 2), Label: Normale zone
  • Punt 3: (3, 1), Label: Normale zone
Clusteranalyse in Python

Wat is unsupervised learning?

  • Een groep machinelearning-algoritmen die patronen in data zoeken
  • Data is niet gelabeld, geclassificeerd of getypeerd
  • Doel: structuur in de data vinden en interpreteren
  • Veelvoorkomend bij unsupervised learning: clusteren, neurale netwerken, anomaliedetectie
Clusteranalyse in Python

Wat is clusteren?

  • Het groeperen van items met vergelijkbare kenmerken
  • Items binnen groepen lijken meer op elkaar dan op items in andere groepen
  • Voorbeeld: afstand tussen punten in een 2D-vlak
Clusteranalyse in Python

Data plotten voor clusteren - Pokémon-waarnemingen

from matplotlib import pyplot as plt
x_coordinates = [80, 93, 86, 98, 86, 9, 15, 3, 10, 20, 44, 56, 49, 62, 44]
y_coordinates = [87, 96, 95, 92, 92, 57, 49, 47, 59, 55, 25, 2, 10, 24, 10]
plt.scatter(x_coordinates, y_coordinates)
plt.show()
Clusteranalyse in Python

Clusteranalyse in Python

Clusteranalyse in Python

Zo meteen: oefenen

Clusteranalyse in Python

Preparing Video For Download...