GRU- en LSTM-cellen

Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

David Cecchini

Data Scientist

Inzoomen op een SimpleRNN-geheugencel, met de geheugenstatus als invoer uit de vorige cel en de invoer van het volgende woord. De cel geeft de nieuwe geheugenstatus en de voorspelling

Inzoomen op de GRU-cel, met extra structuren: update-poort en kandidaat-geheugenstatus

Inzoomen op de LSTM-cel, met extra forget-poort, output-poort, update-poort en kandidaat-geheugenstatus

Geen verdwijnende gradiënten meer

De simpleRNN-cel kan gradiëntproblemen hebben.
- De gewichtenmatrix tot de t-de macht vermenigvuldigt andere termen
GRU- en LSTM-cellen hebben geen verdwijnende gradiënten
- Dankzij hun poorten
- Geen gewichtenmatrices die de rest vermenigvuldigen
- Exploderende gradiënten zijn makkelijker te verhelpen

Gebruik in Keras

# Import the layers
from tensorflow import keras
from tensorflow.keras.layers import GRU, LSTM

# Add the layers to a model
model.add(GRU(units=128, return_sequences=True, name='GRU layer'))
model.add(LSTM(units=64, return_sequences=False, name='LSTM layer'))

Laten we oefenen!

Recurrent Neural Networks (RNN's) voor taalmodellen met Keras