Latent Dirichlet allocation

Pengantar Analisis Teks di R

Maham Faisal Khan

Senior Data Science Content Developer

Pembelajaran tanpa pengawasan

Beberapa istilah pemrosesan bahasa alami (NLP):

  • Latent Dirichlet Allocation (LDA) adalah model topik standar
  • Kumpulan dokumen disebut korpus
  • Bag-of-words memperlakukan setiap kata dalam dokumen secara terpisah
  • Model topik menemukan pola kata yang muncul bersamaan
  • Mencari pola alih-alih memprediksi disebut pembelajaran tanpa pengawasan
Pengantar Analisis Teks di R

Probabilitas kata

Pengantar Analisis Teks di R

Clustering vs. pemodelan topik

Clustering

  • Klaster diungkap berdasarkan jarak (kontinu).
  • Setiap objek masuk ke satu klaster.

Pemodelan topik

  • Topik diungkap berdasarkan frekuensi kata (diskret).
  • Setiap dokumen adalah campuran (anggota parsial) dari setiap topik.
Pengantar Analisis Teks di R

Ayo berlatih!

Pengantar Analisis Teks di R

Preparing Video For Download...