Vektor kata dan spaCy

Pemrosesan Bahasa Alami dengan spaCy

Azadeh Mobasher

Principal Data Scientist

Visualisasi vektor kata

  • Vektor kata membantu memahami bagaimana kata-kata dikelompokkan

 

Contoh vektor kata

  • Principal Component Analysis memproyeksikan vektor kata ke ruang dua dimensi

 

Memvisualisasikan vektor kata

Pemrosesan Bahasa Alami dengan spaCy

Visualisasi vektor kata

  • Impor pustaka yang dibutuhkan dan model spaCy.
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import numpy as np

nlp = spacy.load("en_core_web_md")
  • Ekstrak vektor kata untuk daftar kata dan tumpuk vertikal.
words = ["wonderful", "horrible", 
           "apple", "banana", "orange", "watermelon", 
           "dog", "cat"]
word_vectors = np.vstack([nlp.vocab.vectors[nlp.vocab.strings[w]] for w in words])
Pemrosesan Bahasa Alami dengan spaCy

Visualisasi vektor kata

  • Ekstrak dua komponen utama dengan PCA.
pca = PCA(n_components=2)
word_vectors_transformed = pca.fit_transform(word_vectors)

 

  • Visualisasikan scatter plot dari vektor yang ditransformasikan.
plt.figure(figsize=(10, 8))
plt.scatter(word_vectors_transformed[:, 0], word_vectors_transformed[:, 1])

for word, coord in zip(words, word_vectors_transformed): x, y = coord plt.text(x, y, word, size=10) plt.show()
Pemrosesan Bahasa Alami dengan spaCy

Analogi dan operasi vektor

  • Hubungan semantik antara sepasang kata.
  • Word embeddings menghasilkan analogi seperti gender dan kala:
    • queen - woman + man = king

Analogi dan operasi vektor

Pemrosesan Bahasa Alami dengan spaCy

Kata serupa dalam kosakata

  • spaCy menemukan istilah yang semantik mirip dengan istilah tertentu
import numpy as np
import spacy
nlp = spacy.load("en_core_web_md")

word = "covid"

most_similar_words = nlp.vocab.vectors.most_similar( np.asarray([nlp.vocab.vectors[nlp.vocab.strings[word]]]), n=5) words = [nlp.vocab.strings[w] for w in most_similar_words[0][0]] print(words)
>>> ['Covi', 'CoVid', 'Covici', 'COVID-19', 'corona']
Pemrosesan Bahasa Alami dengan spaCy

Ayo berlatih!

Pemrosesan Bahasa Alami dengan spaCy

Preparing Video For Download...