Keras ile Machine Translation
Thushan Ganegedara
Data Scientist and Author
Veri
en_text : Her biri boşluklarla ayrılmış kelimelerden oluşan cümlelerin yer aldığı bir Python listesi.fr_text: Her biri boşluklarla ayrılmış kelimelerden oluşan cümlelerin yer aldığı bir Python listesi.Veri kümesinden bazı örnekleri yazdırma
for en_sent, fr_sent in zip(en_text[:3], fr_text[:3]):
print("English: ", en_sent)
print("\tFrench: ", fr_sent)
English: new jersey is sometimes quiet during autumn , and it is snowy in april .
French: new jersey est parfois calme pendant l' automne , et il est neigeux en avril .
English: the united states is usually chilly during july , and it is usually freezing in november .
French: les états-unis est généralement froid en juillet , et il gèle habituellement en novembre .
...
Tokenizasyon
"I watched a movie last night, it was okay." şu hale gelir:[I, watched, a, movie, last, night, it, was, okay]Keras ile tokenizasyon
from tensorflow.keras.preprocessing.text import Tokenizer
en_tok = Tokenizer()
en_tok = Tokenizer()
en_tok.fit_on_texts(en_text)
Tokenizerın word_index özniteliğini kullanın.id = en_tok.word_index["january"] # => returns 51
w = en_tok.index_word[51] # => returns 'january'
seq = en_tok.texts_to_sequences(['she likes grapefruit , peaches , and lemons .'])
[[26, 70, 27, 73, 7, 74]]
Tokenizer içinde sözlük boyutunu sınırlayabilirsiniz.tok = Tokenizer(num_words=50)
Sözlük dışı (OOV) kelimeler
Örn.
tok.fit_on_texts(["I drank milk"])tok.texts_to_sequences(["I drank water"])water kelimesi OOV’dir ve yok sayılır.tok = Tokenizer(num_words=50, oov_token='UNK')
tok.fit_on_texts(["I drank milk"])tok.texts_to_sequences(["I drank water"])water kelimesi OOV'dir ve UNK ile değiştirilir.Keras ile Machine Translation