Datavoorbewerking

Klantsegmentatie in Python

Karolis Urbonas

Head of Data Science, Amazon

Voordelen van k-meansclustering

  • Een van de populairste unsupervised-leermethoden
  • Simpel en snel
  • Werkt goed*

* bij bepaalde aannames over de data

Klantsegmentatie in Python

Belangrijke aannames van k-means

  • Symmetrische verdeling van variabelen (niet scheef)
  • Variabelen met hetzelfde gemiddelde
  • Variabelen met dezelfde variantie
Klantsegmentatie in Python

Scheve variabelen

 

  • Links scheef

 

  • Rechts scheef

Klantsegmentatie in Python

Scheve variabelen

  • Scheefheid verwijderd met logtransformatie

Klantsegmentatie in Python

Variabelen op dezelfde schaal

  • K-means gaat uit van gelijke gemiddelden
  • En gelijke varianties
  • Dat geldt niet voor RFM-data
datamart_rfm.describe()

Klantsegmentatie in Python

Laten we de concepten herhalen

Klantsegmentatie in Python

Preparing Video For Download...