Bölüm 2: Metni ön işleme

Keras ile Machine Translation

Thushan Ganegedara

Data Scientist and Author

Özel başlangıç/bitiş belirteçleri ekleme

Cümle:

'les états-unis est parfois occupé en janvier , et il est parfois chaud en novembre .'

şuna dönüşür:

'sos les états-unis est parfois occupé en janvier , et il est parfois chaud en novembre . eos',

özel belirteçler eklendikten sonra

  • sos - Cümlenin/dizinin başlangıcı
  • eos - Cümlenin/dizinin sonu
Keras ile Machine Translation

Cümleleri doldurma (padding)

  • Gerçek veri kümelerinde tüm cümlelerde kelime sayısı aynı değildir

  • pad_sequences içe aktarma

from tensorflow.keras.preprocessing.sequence import pad_sequences
  • Cümleleri dizilere dönüştürme
sentences = [
  'new jersey is sometimes quiet during autumn .',
  'california is never rainy during july , but it is sometimes beautiful in february .'
]
seqs = en_tok.texts_to_sequences(sentences)
Keras ile Machine Translation

Cümleleri doldurma (padding)

preproc_text = pad_sequences(seqs, padding='post', truncating='post', maxlen=12)

for orig, padded in zip(seqs, preproc_text): print(orig, ' => ', padded)

İlk cümlenin sonuna beş adet 0 eklenir:

#  'new jersey is sometimes quiet during autumn .',
[18, 20, 2, 10, 32, 5, 46]  =>  [18 20  2 10 32  5 46  0  0  0  0  0]

İkinci cümlenin sonundan bir kelime kesilir:

# 'california is never rainy during july , but it is sometimes beautiful in february .'
[21, 2, 11, 47, 5, 41, 7, 4, 2, 10, 30, 3, 38]  =>  [ 12 2 11 47  5 41  7  4  2 10 30  3]
  • Keras'ta 0 hiçbir zaman kelime kimliği olarak atanmaz
Keras ile Machine Translation

Cümleleri ters çevirmenin faydası

  • Kodlayıcı ile kod çözücü arasında daha güçlü bir ilk bağlantı kurmaya yardımcı olur

Ters çevirmeden önce/sonra mesafe

Keras ile Machine Translation

Cümleleri ters çevirme

  • Doldurulmuş diziler oluşturma ve zaman boyutunda ters çevirme
    sentences = ["california is never rainy during july .",]
    seqs = en_tok.texts_to_sequences(sentences)
    pad_seq = preproc_text = pad_sequences(seqs, padding='post', truncating='post', maxlen=12)
    
[[21  2  9 25  5 27  0  0  0  0  0  0]]
Keras ile Machine Translation

Cümleleri ters çevirme

pad_seq
[[21  2  9 25  5 27  0  0  0  0  0  0]]
pad_seq = pad_seq[:,::-1]
[[ 0  0  0  0  0  0 27  5 25  9  2 21]]
rev_sent = [en_tok.index_word[wid] for wid in pad_seq[0][-6:]] 
print('Sentence: ', sentences[0])
print('\tReversed: ',' '.join(rev_sent))
Sentence:  california is never rainy during july .
    Reversed:  july during rainy never is california
Keras ile Machine Translation

Hadi pratik yapalım!

Keras ile Machine Translation

Preparing Video For Download...