Melampaui n-gram: word embedding

Rekayasa Fitur untuk NLP di Python

Rounak Banik

Data Scientist

Masalah pada BoW dan tf-idf

'I am happy'

'I am joyous'

'I am sad'

Memetakan kata ke ruang vektor berdimensi-n
Dibuat dengan deep learning dan data sangat besar
Menilai kemiripan antar kata
Dipakai mendeteksi sinonim dan antonim
Menangkap relasi kompleks
- King-Queen → Man-Woman
- France-Paris → Russia-Moscow
Bergantung pada model spacy; independen dari dataset Anda

import spacy

# Muat model dan buat objek Doc
nlp = spacy.load('en_core_web_lg')
doc = nlp('I am happy')

# Hasilkan vektor kata untuk tiap token
for token in doc:
  print(token.vector)

[-1.0747459e+00  4.8677087e-02  5.6630421e+00  1.6680446e+00
 -1.3194644e+00 -1.5142369e+00  1.1940931e+00 -3.0168812e+00
 ...

doc = nlp("happy joyous sad")
for token1 in doc:
  for token2 in doc:
    print(token1.text, token2.text, token1.similarity(token2))

happy happy 1.0
happy joyous 0.63244456
happy sad 0.37338886
joyous happy 0.63244456
joyous joyous 1.0
joyous sad 0.5340932
...

# Buat objek doc
sent1 = nlp("I am happy")
sent2 = nlp("I am sad")
sent3 = nlp("I am joyous")

# Hitung kemiripan antara sent1 dan sent2
sent1.similarity(sent2)

0.9273363837282105

# Hitung kemiripan antara sent1 dan sent3
sent1.similarity(sent3)

0.9403554938594568

Rekayasa Fitur untuk NLP di Python