Woordvectoren en spaCy

Natural Language Processing met spaCy

Azadeh Mobasher

Principal Data Scientist

Visualisatie van woordvectoren

  • Woordvectoren laten zien hoe woorden geclusterd zijn

 

Voorbeeld woordvector

  • Principal Component Analysis projecteert woordvectoren naar een tweedimensionale ruimte

 

Woordvectoren visualiseren

Natural Language Processing met spaCy

Visualisatie van woordvectoren

  • Importeer de benodigde libraries en een spaCy-model.
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import numpy as np

nlp = spacy.load("en_core_web_md")
  • Haal woordvectoren op voor een lijst woorden en stapel ze verticaal.
words = ["wonderful", "horrible", 
           "apple", "banana", "orange", "watermelon", 
           "dog", "cat"]
word_vectors = np.vstack([nlp.vocab.vectors[nlp.vocab.strings[w]] for w in words])
Natural Language Processing met spaCy

Visualisaties van woordvectoren

  • Extraheer twee principale componenten met PCA.
pca = PCA(n_components=2)
word_vectors_transformed = pca.fit_transform(word_vectors)

 

  • Visualiseer de scatterplot van de getransformeerde vectoren.
plt.figure(figsize=(10, 8))
plt.scatter(word_vectors_transformed[:, 0], word_vectors_transformed[:, 1])

for word, coord in zip(words, word_vectors_transformed): x, y = coord plt.text(x, y, word, size=10) plt.show()
Natural Language Processing met spaCy

Analogieën en vectorbewerkingen

  • Een semantische relatie tussen een woordpaar.
  • Woordembeddings leveren analogieën zoals geslacht en tijd:
    • queen - woman + man = king

Analogieën en vectorbewerkingen

Natural Language Processing met spaCy

Vergelijkbare woorden in een vocabulaire

  • Met spaCy vind je semantisch vergelijkbare termen voor een gegeven term
import numpy as np
import spacy
nlp = spacy.load("en_core_web_md")

word = "covid"

most_similar_words = nlp.vocab.vectors.most_similar( np.asarray([nlp.vocab.vectors[nlp.vocab.strings[word]]]), n=5) words = [nlp.vocab.strings[w] for w in most_similar_words[0][0]] print(words)
>>> ['Covi', 'CoVid', 'Covici', 'COVID-19', 'corona']
Natural Language Processing met spaCy

Laten we oefenen!

Natural Language Processing met spaCy

Preparing Video For Download...