Випадання на яких шарах LSTM?

11

Використовуючи багатошаровий LSTMз випаданням, чи доцільно наносити випадання на всі приховані шари, а також вихідні щільні шари? У роботі Гінтона (яка запропонувала Dropout) він наклав Dropout лише на щільні шари, але це було тому, що приховані внутрішні шари були звивистими.

Очевидно, я можу перевірити свою конкретну модель, але мені було цікаво, чи існує консенсус щодо цього?

— BigBadMe
джерело

3

кілька цікавих обговорень щодо відмови в періодичних мережах у цій роботі, якщо вас цікавить: arxiv.org/abs/1512.05287 Гал, Ярін та Зубін Гахрамані. "Теоретично обгрунтоване застосування випаду в періодичних нейронних мережах". Успіхи в нейронних системах обробки інформації. 2016.

— redhqs

2

Здається, підтверджує те, що сказала нижче

— @Media

12

Я вважаю за краще не додавати випадання в LSTMклітинах з однієї конкретної та зрозумілої причини. LSTMsхороші на довгі терміни, але важливим у них є те, що вони не дуже добре запам'ятовують кілька речей одночасно. Логіка випаду полягає в додаванні шуму до нейронів, щоб не залежати від якогось конкретного нейрона. Додавши випадання для LSTMклітин, є шанс забути щось, що не слід забувати. Отже, як і CNNsя завжди вважаю за краще використовувати випадання в щільних шарах після LSTMшарів.

— ЗМІ
джерело

1

Я розумію, про що ви говорите, і це має сенс, але тоді, чому реалізація комірок LSTM в Керасі або Тенсорфлоу надає можливість вказувати випадання (і періодичне випадання), якщо це, фактично, підірве, як LSTM повинен функція?

— BigBadMe

3

У CNNsній цілком прийнятно не використовувати їх у шарах конвертів через малу кількість ваг у згорткових шарах. З LSTMsіншого боку, кількість ваг не мала. Як я вже згадував у завданнях, що є багато речей, які потрібно запам’ятати, я намагаюся не використовувати випадання, але це такі випадки, як напруження дієслів, від яких у вас мало залежностей, я думаю, це не дуже погано. До речі, це був мій досвід. Можуть бути інші відповіді для різних областей додатків.

— Медіа

1

Чудове пояснення обох відповідей! (+ 1)

— Адітя

5

Не існує єдиної думки, яку можна було б довести у всіх типах моделей.

Мислення відсіву як форми регуляризації, скільки його застосовувати (і де), по суті буде залежати від типу та розміру набору даних, а також від складності побудованої моделі (наскільки вона велика).

— n1k31t4
джерело