Latente Dirichlet-allocatie

Introductie tot tekstanalyse in R

Maham Faisal Khan

Senior Data Science Content Developer

Unsupervised learning

Nog wat NLP-terminologie:

  • Latent Dirichlet Allocation (LDA) is een standaard topicmodel
  • Een verzameling documenten heet een corpus
  • Bag-of-words behandelt elk woord in een document apart
  • Topicmodellen vinden patronen van samen voorkomende woorden
  • Patronen zoeken in plaats van voorspellen heet unsupervised learning
Introductie tot tekstanalyse in R

Woordkansen

Introductie tot tekstanalyse in R

Clustering vs. topic modeling

Clustering

  • Clusters worden ontdekt op basis van afstand (continu).
  • Elk object krijgt één cluster.

Topic modeling

  • Topics worden ontdekt op basis van woordfrequentie (discreet).
  • Elk document is een mix (gedeeltelijk lid) van elke topic.
Introductie tot tekstanalyse in R

Laten we oefenen!

Introductie tot tekstanalyse in R

Preparing Video For Download...