python – ¿Como implementar una capa de proyección a la salida de una Red Neuronal Recurrente?

Hola y gracias de antemano.

Estoy tratando de implementar una red LSTM que encontré en un artículo donde dice lo siguiente:

The d-vector model is a 3-layer LSTM network with a final linear layer.
Each LSTM layer has 768 nodes, with projection of 256 nodes.

He implementado éste código:

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train = x_train.astype("float32")/255.0
x_test = x_test.astype("float32")/255.0

model = keras.Sequential()
model.add( layers.Input(shape=(None,28)) )
model.add( layers.LSTM(50, activation='relu', return_sequences=True) )
model.add( layers.LSTM(50, activation='relu', return_sequences=True) )
model.add( layers.LSTM(50, activation='linear') )

print(model.summary())

model.compile(
    loss = keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer = keras.optimizers.Adam(learning_rate=0.001),
    metrics=("accuracy")
)

model.fit(x_train, y_train, batch_size=64, epochs=10, verbose=2)
model.evaluate(x_test, y_test, batch_size=64, verbose=2)

Mi duda radica en cómo puedo agregar la proyección de 256 nodos.

The d-vector model is a 3-layer LSTM network with a final linear layer.
Each LSTM layer has 768 nodes, with projection of 256 nodes.

Si hay algún error en el código ya escrito, por favor, me corrigen. Estoy aprendiendo a usar tensorflow con keras y no domino muy bien el código que hice. Saludos y gracias!!!