Deep Learning pour le texte avec PyTorch
Shubham Jain
Data Scientist
"
"
{{3}}"
"- Encodage one-hot : transforme les mots en représentations numériques uniques
"- Associer chaque mot à un vecteur distinct
"- ['chat', 'chien', 'lapin']
"`py
import torch
vocab = ['chat', 'chien', 'lapin']
----CODE_GLUE---- ```py vocab_size = len(vocab)one_hot_vectors = torch.eye(vocab_size)one_hot_dict = {word: one_hot_vectors[i] for i, word in enumerate(vocab)}print(one_hot_dict)
out
{'chat': tensor([1., 0., 0.]),
'chien': tensor([0., 1., 0.]),
'lapin': tensor([0., 0., 1.])}{{5}}"
"- Exemple : « Le chat était assis sur le tapis »
"- Considérer chaque document comme une collection non ordonnée de mots
from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorizer()corpus = ['Ceci est le premier document.', 'Ce document est le deuxième document.', 'Et ceci est le troisième.', 'Est-ce le premier document ?']X = vectorizer.fit_transform(corpus)print(X.toarray())print(vectorizer.get_feature_names_out())
out
[[0 1 1 1 0 0 1 0 1] [0 2 0 1 0 1 1 0 1] [1 0 0 1 1 0 1 1 1] [0 1 1 1 0 0 1 0 1]] DNT_CURLY_TAG_5 out ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
"- Fréquence Terme-Fréquence Inverse de Document
from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer()corpus = ['Ceci est le premier document.','Ce document est le deuxième document.', 'Et ceci est le troisième.','Est-ce le premier document ?']X = vectorizer.fit_transform(corpus)print(X.toarray())print(vectorizer.get_feature_names_out())
[[0. 0. 0.68091856 0.51785612 0.51785612 0. ] [0. 0. 0. 0.51785612 0.51785612 0.68091856] [0.85151335 0.42575668 0. 0.32274454 0.32274454 0. ] [0. 0. 0.68091856 0.51785612 0.51785612 0. ]] ```
"
"
"Techniques : L'encodage one-hot, le sac de mots et le TF-IDF
Deep Learning pour le texte avec PyTorch