n-gramların ötesi: kelime gömmeleri

Python ile NLP için Özellik Mühendisliği

Rounak Banik

Data Scientist

BoW ve tf-idf’in sorunu

'I am happy'
'I am joyous'
'I am sad'
Python ile NLP için Özellik Mühendisliği

Kelime gömmeleri

  • Sözcükleri n boyutlu vektör uzayına eşler
  • Derin öğrenme ve çok büyük verilerle üretilir
  • İki sözcüğün benzerliğini ölçer
  • Eş ve zıt anlamları saptamada kullanılır
  • Karmaşık ilişkileri yakalar
    • King-QueenMan-Woman
    • France-ParisRussia-Moscow
  • spaCy modeline bağlıdır; kullandığınız veri kümesinden bağımsızdır
Python ile NLP için Özellik Mühendisliği

spaCy ile kelime gömmeleri

import spacy

# Modeli yükleyin ve Doc nesnesi oluşturun
nlp = spacy.load('en_core_web_lg')
doc = nlp('I am happy')
# Her token için kelime vektörlerini oluşturun
for token in doc:
  print(token.vector)
[-1.0747459e+00  4.8677087e-02  5.6630421e+00  1.6680446e+00
 -1.3194644e+00 -1.5142369e+00  1.1940931e+00 -3.0168812e+00
 ...
Python ile NLP için Özellik Mühendisliği

Sözcük benzerlikleri

doc = nlp("happy joyous sad")
for token1 in doc:
  for token2 in doc:
    print(token1.text, token2.text, token1.similarity(token2))
happy happy 1.0
happy joyous 0.63244456
happy sad 0.37338886
joyous happy 0.63244456
joyous joyous 1.0
joyous sad 0.5340932
...
Python ile NLP için Özellik Mühendisliği

Belge benzerlikleri

# Doc nesneleri oluşturun
sent1 = nlp("I am happy")
sent2 = nlp("I am sad")
sent3 = nlp("I am joyous")
# sent1 ile sent2 arasındaki benzerliği hesaplayın
sent1.similarity(sent2)
0.9273363837282105
# sent1 ile sent3 arasındaki benzerliği hesaplayın
sent1.similarity(sent3)
0.9403554938594568
Python ile NLP için Özellik Mühendisliği

Haydi pratik yapalım!

Python ile NLP için Özellik Mühendisliği

Preparing Video For Download...