Kelime gömmeleri

R ile Doğal Dil İşlemeye Giriş

Kasey Jones

Research Data Scientist

Kelime sayımındaki kusur

İki ifade:

  • Tanıdığım en zeki kişi Bob.
  • Tanıdığım en parlak kişi Bob.

Durdurma kelimeleri olmadan:

  • Bob zeki kişi
  • Bob parlak kişi
R ile Doğal Dil İşlemeye Giriş

Kelime anlamları

Ek veri:

  • En zeki insanlar ...
  • O en zekiydi ...
  • Parlak insanlar ...
  • Onunki çok parlaktı ...
R ile Doğal Dil İşlemeye Giriş

word2vec

  • kelimeleri büyük bir vektör uzayında temsil eder
  • kelimeler arası çoklu benzerlikleri yakalar
  • benzer anlamlı kelimeler uzayda birbirine daha yakındır

Bir word2vec gösteriminde, benzer kelimeler çok boyutlu bir vektör uzayında birbirine daha yakın kümelenir.

1 https://www.adityathakker.com/introduction-to-word2vec-how-it-works/
R ile Doğal Dil İşlemeye Giriş

Veri hazırlama

library(h2o)
h2o.init()
h2o_object = as.h2o(animal_farm)

h2o ile tokenleştirme:

words <- h2o.tokenize(h2o_object$text_column, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]
R ile Doğal Dil İşlemeye Giriş

word2vec modelleme

word2vec_model <-
    h2o.word2vec(words, min_word_freq = 5, epochs = 5)
  • min_word_freq: 5'ten az kullanılan kelimeleri kaldırır
  • epochs: çalıştırılacak eğitim yinelemesi sayısı
R ile Doğal Dil İşlemeye Giriş

Kelime eşanlamlıları

h2o.findSynonyms(w2v.model, "animal")
    synonym     score
1     drink 0.8209088
2       age 0.7952490
3   alcohol 0.7867004
4       act 0.7710537
5      hero 0.7658424
h2o.findSynonyms(w2v.model, "jones")
      synonym     score
1      battle 0.7996588
2  discovered 0.7944554
3     cowshed 0.7823287
4     enemies 0.7766532
5       yards 0.7679787
R ile Doğal Dil İşlemeye Giriş

Diğer kullanımlar

  • sınıflandırma modelleme
  • duygu analizi
  • konu modelleme
R ile Doğal Dil İşlemeye Giriş

word2vec uygulama

R ile Doğal Dil İşlemeye Giriş

Preparing Video For Download...