Використовуючи багатошаровий LSTM
з випаданням, чи доцільно наносити випадання на всі приховані шари, а також вихідні щільні шари? У роботі Гінтона (яка запропонувала Dropout) він наклав Dropout лише на щільні шари, але це було тому, що приховані внутрішні шари були звивистими.
Очевидно, я можу перевірити свою конкретну модель, але мені було цікаво, чи існує консенсус щодо цього?