Bagian 2: Prapemrosesan teks

Penerjemahan Mesin dengan Keras

Thushan Ganegedara

Data Scientist and Author

Menambahkan token awal/akhir khusus

Kalimat:

'les états-unis est parfois occupé en janvier , et il est parfois chaud en novembre .'

menjadi:

'sos les états-unis est parfois occupé en janvier , et il est parfois chaud en novembre . eos',

setelah menambahkan token khusus

  • sos - Awal kalimat/sekuens
  • eos - Akhir kalimat/sekuens
Penerjemahan Mesin dengan Keras

Padding pada kalimat

  • Dataset dunia nyata tidak pernah memiliki jumlah kata yang sama di semua kalimat

  • Mengimpor pad_sequences

from tensorflow.keras.preprocessing.sequence import pad_sequences
  • Mengonversi kalimat ke sekuens
sentences = [
  'new jersey is sometimes quiet during autumn .',
  'california is never rainy during july , but it is sometimes beautiful in february .'
]
seqs = en_tok.texts_to_sequences(sentences)
Penerjemahan Mesin dengan Keras

Padding pada kalimat

preproc_text = pad_sequences(seqs, padding='post', truncating='post', maxlen=12)

for orig, padded in zip(seqs, preproc_text): print(orig, ' => ', padded)

Kalimat pertama mendapat lima 0 di akhir:

#  'new jersey is sometimes quiet during autumn .',
[18, 20, 2, 10, 32, 5, 46]  =>  [18 20  2 10 32  5 46  0  0  0  0  0]

Kalimat kedua terpotong satu kata di akhir:

# 'california is never rainy during july , but it is sometimes beautiful in february .'
[21, 2, 11, 47, 5, 41, 7, 4, 2, 10, 30, 3, 38]  =>  [ 12 2 11 47  5 41  7  4  2 10 30  3]
  • Di Keras, 0 tidak pernah dipakai sebagai ID kata
Penerjemahan Mesin dengan Keras

Manfaat membalik kalimat

  • Membantu memperkuat koneksi awal antara encoder dan decoder

Jarak dengan dan tanpa pembalikan

Penerjemahan Mesin dengan Keras

Membalik urutan kata

  • Membuat sekuens ber-padding dan membalik sekuens pada dimensi waktu
    sentences = ["california is never rainy during july .",]
    seqs = en_tok.texts_to_sequences(sentences)
    pad_seq = preproc_text = pad_sequences(seqs, padding='post', truncating='post', maxlen=12)
    
[[21  2  9 25  5 27  0  0  0  0  0  0]]
Penerjemahan Mesin dengan Keras

Membalik urutan kata

pad_seq
[[21  2  9 25  5 27  0  0  0  0  0  0]]
pad_seq = pad_seq[:,::-1]
[[ 0  0  0  0  0  0 27  5 25  9  2 21]]
rev_sent = [en_tok.index_word[wid] for wid in pad_seq[0][-6:]] 
print('Sentence: ', sentences[0])
print('\tReversed: ',' '.join(rev_sent))
Sentence:  california is never rainy during july .
    Reversed:  july during rainy never is california
Penerjemahan Mesin dengan Keras

Ayo berlatih!

Penerjemahan Mesin dengan Keras

Preparing Video For Download...