De Embedding-laag

Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

David Cecchini

Data Scientist

Waarom embeddings

Voordelen:

  • Dimensie verkleinen
    one_hot = np.array((N, 100000))
    embedd = np.array((N, 300))
    
  • Dichte representatie
    • king - man + woman = queen
  • Transfer learning

Nadelen:

  • Veel te trainen parameters: trainen duurt langer
Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

Gebruik in Keras

In Keras:

from tensorflow.keras.layers import Embedding

model = Sequential() # Gebruik als eerste laag model.add(Embedding(input_dim=100000,
output_dim=300,
trainable=True,
embeddings_initializer=None,
input_length=120))
Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

Transfer learning

Transfer learning voor taalmodellen

  • GloVE
  • word2vec
  • BERT

In Keras:

from tensorflow.keras.initializers import Constant

model.add(Embedding(input_dim=vocabulary_size, output_dim=embedding_dim,
embeddings_initializer=Constant(pre_trained_vectors))
Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

GloVE-voorgetrainde vectoren gebruiken

Officiële site: https://nlp.stanford.edu/projects/glove/

# Haal de GloVE-vectoren op
def get_glove_vectors(filename="glove.6B.300d.txt"):
    # Haal alle woordvectoren uit het voorgetrainde model
    glove_vector_dict = {}
    with open(filename) as f:
        for line in f:

values = line.split()
word = values[0] coefs = values[1:]
glove_vector_dict[word] = np.asarray(coefs, dtype='float32')
return glove_vector_dict
Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

GloVE gebruiken voor een specifieke taak

# Filter GloVE-vectoren voor een specifieke taak
def filter_glove(vocabulary_dict, glove_dict, wordvec_dim=300):

# Maak een matrix voor de vectoren embedding_matrix = np.zeros((len(vocabulary_dict) + 1, wordvec_dim))
for word, i in vocabulary_dict.items(): embedding_vector = glove_dict.get(word)
if embedding_vector is not None: # woorden die niet in glove_dict staan, krijgen nullen embedding_matrix[i] = embedding_vector
return embedding_matrix
Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

Laten we oefenen!

Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

Preparing Video For Download...