Deel 2: Tekst voorbewerken

Machine Translation met Keras

Thushan Ganegedara

Data Scientist and Author

Speciale begin-/eindtokens toevoegen

De zin:

'les états-unis est parfois occupé en janvier , et il est parfois chaud en novembre .'

wordt:

'sos les états-unis est parfois occupé en janvier , et il est parfois chaud en novembre . eos',

na het toevoegen van speciale tokens

  • sos - Begin van een zin/sequentie
  • eos - Einde van een zin/sequentie
Machine Translation met Keras

Zinnen opvullen (padding)

  • In echte data hebben zinnen niet allemaal evenveel woorden

  • pad_sequences importeren

from tensorflow.keras.preprocessing.sequence import pad_sequences
  • Zinnen omzetten naar sequenties
sentences = [
  'new jersey is sometimes quiet during autumn .',
  'california is never rainy during july , but it is sometimes beautiful in february .'
]
seqs = en_tok.texts_to_sequences(sentences)
Machine Translation met Keras

Zinnen opvullen (padding)

preproc_text = pad_sequences(seqs, padding='post', truncating='post', maxlen=12)

for orig, padded in zip(seqs, preproc_text): print(orig, ' => ', padded)

Eerste zin krijgt vijf 0'en achteraan:

#  'new jersey is sometimes quiet during autumn .',
[18, 20, 2, 10, 32, 5, 46]  =>  [18 20  2 10 32  5 46  0  0  0  0  0]

Tweede zin wordt één woord aan het eind afgekapt:

# 'california is never rainy during july , but it is sometimes beautiful in february .'
[21, 2, 11, 47, 5, 41, 7, 4, 2, 10, 30, 3, 38]  =>  [ 12 2 11 47  5 41  7  4  2 10 30  3]
  • In Keras krijgt 0 nooit een woord-ID
Machine Translation met Keras

Voordeel van zinnen omkeren

  • Versterkt de eerste koppeling tussen encoder en decoder

Afstand met en zonder omkeren

Machine Translation met Keras

Zinnen omkeren

  • Opgevulde sequenties maken en deze in de tijdsdimensie omkeren
    sentences = ["california is never rainy during july .",]
    seqs = en_tok.texts_to_sequences(sentences)
    pad_seq = preproc_text = pad_sequences(seqs, padding='post', truncating='post', maxlen=12)
    
[[21  2  9 25  5 27  0  0  0  0  0  0]]
Machine Translation met Keras

Zinnen omkeren

pad_seq
[[21  2  9 25  5 27  0  0  0  0  0  0]]
pad_seq = pad_seq[:,::-1]
[[ 0  0  0  0  0  0 27  5 25  9  2 21]]
rev_sent = [en_tok.index_word[wid] for wid in pad_seq[0][-6:]] 
print('Sentence: ', sentences[0])
print('\tReversed: ',' '.join(rev_sent))
Sentence:  california is never rainy during july .
    Reversed:  july during rainy never is california
Machine Translation met Keras

Laten we oefenen!

Machine Translation met Keras

Preparing Video For Download...