Gizli Dirichlet ayrımı (LDA)

R ile Metin Analizine Giriş

Maham Faisal Khan

Senior Data Science Content Developer

Denetimsiz öğrenme

Biraz daha doğal dil işleme (NLP) terimi:

  • Latent Dirichlet Allocation (LDA) standart bir konu modelidir
  • Belge koleksiyonuna corpus denir
  • Bag-of-words, bir belgedeki her kelimeyi ayrı ayrı ele alır
  • Konu modelleri birlikte görünen kelime örüntülerini bulur
  • Örüntü aramaya, tahmin yerine, denetimsiz öğrenme denir
R ile Metin Analizine Giriş

Kelime olasılıkları

R ile Metin Analizine Giriş

Kümeleme ve konu modelleme

Kümeleme

  • Kümeler, sürekli olan uzaklığa göre ortaya çıkarılır.
  • Her nesne tek bir kümeye atanır.

Konu modelleme

  • Konular, ayrık olan kelime sıklığına göre ortaya çıkarılır.
  • Her belge, her konunun bir karışımıdır (yani kısmi üyedir).
R ile Metin Analizine Giriş

Haydi pratik yapalım!

R ile Metin Analizine Giriş

Preparing Video For Download...