Deep Learning für Text mit PyTorch
Shubham Jain
Data Scientist
"- Textklassifikation
"Anwendungsfälle:
{{7}}"
"Voraussetzungskurs: Intermediate Deep Learning mit PyTorch


"
"
"
"- Tokenisierung
"- Token oder Wörter werden aus Text extrahiert
torchtextfrom torchtext.data.utils import get_tokenizertokenizer = get_tokenizer(\"basic_english\")tokens = tokenizer(\"I am reading a book now. Ich lese gerne Bücher!\") print(tokens)
out
[\"Ich\", \"lese\", \"gerade\", \"ein\", \"Buch\", \".\", \"Ich\", \"lese\", \"gerne\",
\"Bücher\", \"!\"]{{5}}"
"- Entfernen Sie gebräuchliche Wörter, die nicht zur Bedeutung beitragen
import nltk nltk.download('stopwords') from nltk.corpus import stopwordsstop_words = set(stopwords.words('english'))tokens = [\"I\", \"am\", \"reading\", \"a\", \"book\", \"now\", \".\", \"I\", \"love\", \"to\", \"read\", \"books\", \"!\"] filtered_tokens = [token for token in tokens if token.lower() not in stop_words]print(filtered_tokens)
out
[\"reading\", \"book\", \".\", \"love\", \"read\", \"books\", \"!\"]{{5}}"
"- Reduzierung von Wörtern auf ihre Grundform
import nltk from nltk.stem import PorterStemmerstemmer = PorterStemmer()filtered_tokens = [\"reading\", \"book\", \".\", \"love\", \"read\", \"books\", \"!\"]stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens]print(stemmed_tokens)
out
[\"read\", \"book\", \".\", \"love\", \"read\", \"book\", \"!\"]{{7}}"
"- Entfernen von seltenen Wörtern, die keinen Mehrwert bieten
from nltk.probability import FreqDist stemmed_tokens= [\"read\", \"book\", \".\", \"love\", \"read\", \"book\", \"!\"] freq_dist = FreqDist(stemmed_tokens)threshold = 2common_tokens = [token for token in stemmed_tokens if freq_dist[token] > threshold] print(common_tokens)
out
[\"read\", \"book\", \"read\", \"book\"]{{5}}"
Tokenisierung, Stoppwortentfernung, Stemming und Entfernung seltener Wörter
Deep Learning für Text mit PyTorch