Introductie: een tekstverwerkingspipeline bouwen

Deep Learning voor tekst met PyTorch

Shubham Jain

Data Scientist

Samenvatting: voorbewerking

Preprocessing-pipeline

  • Voorbewerking:
    • Tokenization
    • Stopwoorden verwijderen
    • Stemming
    • Zeldzame woorden verwijderen
Deep Learning voor tekst met PyTorch

Tekstverwerkingspipeline

Preprocessing-pipeline

  • Codering:
    • One-hot-encoding
    • Bag-of-words
    • TF-IDF
  • Embedding
Deep Learning voor tekst met PyTorch

Tekstverwerkingspipeline

Dataverwerkingspipeline

  • Dataset als container voor verwerkte en gecodeerde tekst

  • DataLoader: batchen, shufflen en multiprocessing

Deep Learning voor tekst met PyTorch

Samenvatting: Dataset en DataLoader implementeren

# Import libraries
from torch.utils.data import Dataset, DataLoader

# Create a class class TextDataset(Dataset):
def __init__(self, text): self.text = text
def __len__(self): return len(self.text)
def __getitem__(self, idx): return self.text[idx]
Deep Learning voor tekst met PyTorch

Samenvatting: Dataset en DataLoader integreren

dataset = TextDataset(encoded_text)

dataloader = DataLoader(dataset, batch_size=2, shuffle=True)
Deep Learning voor tekst met PyTorch

Hulpfuncties gebruiken

def preprocess_sentences(sentences):
    processed_sentences = []
    for sentence in sentences:
        sentence = sentence.lower()
        tokens = tokenizer(sentence)
        tokens = [token for token in tokens 
                  if token not in stop_words]
        tokens = [stemmer.stem(token) 
                  for token in tokens]
        freq_dist = FreqDist(tokens)
        threshold = 2
        tokens = [token for token in tokens if 
        freq_dist[token] > threshold]
        processed_sentences.append(
                   ' '.join(tokens))
    return processed_sentences
def encode_sentences(sentences):
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(sentences)
    encoded_sentences = X.toarray()
    return encoded_sentences, vectorizer
def extract_sentences(data):
    sentences = re.findall(r'[A-Z][^.!?]*[.!?]', 
                           data)
    return sentences
Deep Learning voor tekst met PyTorch

De tekstverwerkingspipeline opbouwen

def text_processing_pipeline(text):

tokens = preprocess_sentences(text)
encoded_sentences, vectorizer = encode_sentences(tokens)
dataset = TextDataset(encoded_sentences)
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)
return dataloader, vectorizer
Deep Learning voor tekst met PyTorch

De tekstverwerkingspipeline toepassen

text_data = "This is the first text data. And here is another one."

sentences = extract_sentences(text_data) dataloaders, vectorizer = [text_processing_pipeline(text) for text in sentences]
print(next(iter(dataloader))[0, :10])
[[1, 1, 1, 1, 1], [0, 0, 0, 1, 1]]
Deep Learning voor tekst met PyTorch

Tekstverwerkingspipeline: klaar!

Volledige pipeline

Deep Learning voor tekst met PyTorch

Laten we oefenen!

Deep Learning voor tekst met PyTorch

Preparing Video For Download...