Recurrent Neural Networks (RNN's) voor taalmodellen met Keras
David Cecchini
Data Scientist
Voordelen:
one_hot = np.array((N, 100000))
embedd = np.array((N, 300))
king - man + woman = queenNadelen:
In Keras:
from tensorflow.keras.layers import Embeddingmodel = Sequential() # Gebruik als eerste laag model.add(Embedding(input_dim=100000,output_dim=300,trainable=True,embeddings_initializer=None,input_length=120))
Transfer learning voor taalmodellen
In Keras:
from tensorflow.keras.initializers import Constantmodel.add(Embedding(input_dim=vocabulary_size, output_dim=embedding_dim,embeddings_initializer=Constant(pre_trained_vectors))
Officiële site: https://nlp.stanford.edu/projects/glove/
# Haal de GloVE-vectoren op def get_glove_vectors(filename="glove.6B.300d.txt"): # Haal alle woordvectoren uit het voorgetrainde model glove_vector_dict = {} with open(filename) as f: for line in f:values = line.split()word = values[0] coefs = values[1:]glove_vector_dict[word] = np.asarray(coefs, dtype='float32')return glove_vector_dict
# Filter GloVE-vectoren voor een specifieke taak def filter_glove(vocabulary_dict, glove_dict, wordvec_dim=300):# Maak een matrix voor de vectoren embedding_matrix = np.zeros((len(vocabulary_dict) + 1, wordvec_dim))for word, i in vocabulary_dict.items(): embedding_vector = glove_dict.get(word)if embedding_vector is not None: # woorden die niet in glove_dict staan, krijgen nullen embedding_matrix[i] = embedding_vectorreturn embedding_matrix
Recurrent Neural Networks (RNN's) voor taalmodellen met Keras