Deep Learning pour le texte avec PyTorch
Shubham Jain
Data Scientist
"- Classification de texte
"Cas d’utilisation :
Traduction automatique
{{7}}"
"Cours préalable : Apprentissage profond intermédiaire avec PyTorch


"
"
"
"- Tokenisation
"- Les tokens ou mots sont extraits du texte
torchtextfrom torchtext.data.utils import get_tokenizertokenizer = get_tokenizer(\"basic_english\")tokens = tokenizer(\"I am reading a book now. J'adore lire des livres !\") print(tokens)
out
[\"Je\", \"suis\", \"en train\", \"de\", \"lire\", \"un\", \"livre\", \"maintenant\", \".\", \"J'\", \"adore\", \"lire\",
\"des livres\", \"!\"]{{5}}"
"- Éliminer les mots courants qui n’apportent pas de sens
import nltk nltk.download('stopwords') from nltk.corpus import stopwordsstop_words = set(stopwords.words('english'))tokens = [\"I\", \"am\", \"reading\", \"a\", \"book\", \"now\", \".\", \"I\", \"love\", \"to\", \"read\", \"books\", \"!\"] filtered_tokens = [token for token in tokens if token.lower() not in stop_words]print(filtered_tokens)
out
[\"reading\", \"book\", \".\", \"love\", \"read\", \"books\", \"!\"]{{5}}"
"- Réduire les mots à leur forme de base
import nltk from nltk.stem import PorterStemmerstemmer = PorterStemmer()filtered_tokens = [\"reading\", \"book\", \".\", \"love\", \"read\", \"books\", \"!\"]stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens]print(stemmed_tokens)
out
[\"read\", \"book\", \".\", \"love\", \"read\", \"book\", \"!\"]{{7}}"
"- Suppression des mots peu fréquents qui n'apportent pas de valeur
from nltk.probability import FreqDist stemmed_tokens= [\"read\", \"book\", \".\", \"love\", \"read\", \"book\", \"!\"] freq_dist = FreqDist(stemmed_tokens)threshold = 2common_tokens = [token for token in stemmed_tokens if freq_dist[token] > threshold] print(common_tokens)
out
[\"read\", \"book\", \"read\", \"book\"]{{5}}"
Tokenisation, suppression des mots vides, racinisation et suppression des mots rares
Deep Learning pour le texte avec PyTorch