Tekstdata encoderen

Deep Learning voor tekst met PyTorch

Shubham Jain

Data Scientist

Tekstcodering

Pytorch-verwerkingspipeline

  • Zet tekst om in machineleesbare getallen
  • Maakt analyse en modellering mogelijk

Sequentiële data-afbeelding om inzichten te vinden

Deep Learning voor tekst met PyTorch

Encoderingstechnieken

  • One-hot encoding: zet woorden om in unieke numerieke representaties
  • Bag-of-Words (BoW): vangt woordfrequentie, negeert volgorde
  • TF-IDF: balanceert uniekheid en belangrijkheid
  • Embedding: zet woorden om in vectoren, met semantiek (Hoofdstuk 2)
Deep Learning voor tekst met PyTorch

One-hot encoding

  • Koppel elk woord aan een eigen vector
  • Binaire vector:
    • 1 als een woord aanwezig is
    • 0 als een woord ontbreekt
  • ['cat', 'dog', 'rabbit']
    • 'cat' [1, 0, 0]
    • 'dog' [0, 1, 0]
    • 'rabbit' [0, 0, 1]
Deep Learning voor tekst met PyTorch

One-hot encoding met PyTorch

import torch
vocab = ['cat', 'dog', 'rabbit']

vocab_size = len(vocab)
one_hot_vectors = torch.eye(vocab_size)
one_hot_dict = {word: one_hot_vectors[i] for i, word in enumerate(vocab)}
print(one_hot_dict)
{'cat': tensor([1., 0., 0.]),
  'dog': tensor([0., 1., 0.]),
  'rabbit': tensor([0., 0., 1.])}
Deep Learning voor tekst met PyTorch

Bag-of-words

  • Voorbeeld: "The cat sat on the mat"
  • Bag-of-words:
    • {'the': 2, 'cat': 1, 'sat': 1, 'on': 1, 'mat': 1}
  • Elk document als ongesorteerde woordverzameling
  • Richt zich op frequentie, niet op volgorde
Deep Learning voor tekst met PyTorch

CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
corpus = ['This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?']
X = vectorizer.fit_transform(corpus)
print(X.toarray())
print(vectorizer.get_feature_names_out())
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
Deep Learning voor tekst met PyTorch

TF-IDF

  • Term Frequency–Inverse Document Frequency
    • Scoort de belangrijkheid van woorden in een document
    • Zeldzame woorden scoren hoger
    • Veelvoorkomende lager
    • Benadrukt informatieve woorden
Deep Learning voor tekst met PyTorch

TfidfVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()

corpus = ['This is the first document.','This document is the second document.', 'And this is the third one.','Is this the first document?']
X = vectorizer.fit_transform(corpus)
print(X.toarray())
print(vectorizer.get_feature_names_out())
[[0.         0.         0.68091856 0.51785612 0.51785612 0.        ]
 [0.         0.         0.          0.51785612 0.51785612 0.68091856]
 [0.85151335 0.42575668 0.         0.32274454 0.32274454 0.        ]
 [0.         0.         0.68091856 0.51785612 0.51785612 0.        ]]

['and' 'document' 'first' 'is' 'one' 'second']
Deep Learning voor tekst met PyTorch

TfidfVectorizer

TFIDF-code

Deep Learning voor tekst met PyTorch

Encoderingstechnieken

Technieken: one-hot encoding, bag-of-words en TF-IDF

  • Laat modellen tekst begrijpen en verwerken
  • Kies één techniek om redundantie te vermijden
  • Er zijn meer technieken
Deep Learning voor tekst met PyTorch

Laten we oefenen!

Deep Learning voor tekst met PyTorch

Preparing Video For Download...