Я думаю, що ви маєте на увазі вертикально складені шари LSTM (якщо вважати, що горизонтальні осі - це часова вісь.
У цьому випадку головною причиною складання LSTM є забезпечення більшої складності моделі. У випадку простої сітки для подачі даних ми укладаємо шари для створення ієрархічного представлення вхідних даних, які потім використовуватимуться для виконання якогось завдання машинного навчання. Те саме стосується і складених LSTM.
На кожному кроці LSTM, окрім періодичного введення. Якщо вхід вже є результатом шару LSTM (або шару подачі), то поточний LSTM може створити більш складне представлення функції поточного входу.
Тепер різниця між наявністю шару подачі між шаром введення функції та шаром LSTM і тим, що є інший шар LSTM, полягає в тому, що шар передачі вперед (скажімо, повністю з'єднаний шар) не отримує зворотного зв'язку з попереднього кроку часу і, таким чином, не може враховувати певний візерунки. Маючи замість LSTM (наприклад, використовуючи складене представлення LSTM), більш складні схеми введення можуть бути описані на кожному шарі