Випадання на яких шарах LSTM?


11

Використовуючи багатошаровий LSTMз випаданням, чи доцільно наносити випадання на всі приховані шари, а також вихідні щільні шари? У роботі Гінтона (яка запропонувала Dropout) він наклав Dropout лише на щільні шари, але це було тому, що приховані внутрішні шари були звивистими.

Очевидно, я можу перевірити свою конкретну модель, але мені було цікаво, чи існує консенсус щодо цього?


3
кілька цікавих обговорень щодо відмови в періодичних мережах у цій роботі, якщо вас цікавить: arxiv.org/abs/1512.05287 Гал, Ярін та Зубін Гахрамані. "Теоретично обгрунтоване застосування випаду в періодичних нейронних мережах". Успіхи в нейронних системах обробки інформації. 2016.
redhqs

2
Здається, підтверджує те, що сказала нижче
@Media

Відповіді:


12

Я вважаю за краще не додавати випадання в LSTMклітинах з однієї конкретної та зрозумілої причини. LSTMsхороші на довгі терміни, але важливим у них є те, що вони не дуже добре запам'ятовують кілька речей одночасно. Логіка випаду полягає в додаванні шуму до нейронів, щоб не залежати від якогось конкретного нейрона. Додавши випадання для LSTMклітин, є шанс забути щось, що не слід забувати. Отже, як і CNNsя завжди вважаю за краще використовувати випадання в щільних шарах після LSTMшарів.


1
Я розумію, про що ви говорите, і це має сенс, але тоді, чому реалізація комірок LSTM в Керасі або Тенсорфлоу надає можливість вказувати випадання (і періодичне випадання), якщо це, фактично, підірве, як LSTM повинен функція?
BigBadMe

3
У CNNsній цілком прийнятно не використовувати їх у шарах конвертів через малу кількість ваг у згорткових шарах. З LSTMsіншого боку, кількість ваг не мала. Як я вже згадував у завданнях, що є багато речей, які потрібно запам’ятати, я намагаюся не використовувати випадання, але це такі випадки, як напруження дієслів, від яких у вас мало залежностей, я думаю, це не дуже погано. До речі, це був мій досвід. Можуть бути інші відповіді для різних областей додатків.
Медіа

1
Чудове пояснення обох відповідей! (+ 1)
Адітя

5

Не існує єдиної думки, яку можна було б довести у всіх типах моделей.

Мислення відсіву як форми регуляризації, скільки його застосовувати (і де), по суті буде залежати від типу та розміру набору даних, а також від складності побудованої моделі (наскільки вона велика).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.