Вибір методу регуляризації в нейронних мережах


9

Під час тренування нейронних мереж існує щонайменше 4 способи регуляризації мережі:

  • L1 Регуляризація
  • L2 Регуляризація
  • Опускати
  • Нормалізація партії

    плюс звичайно інші речі, такі як розподіл ваги та зменшення кількості з'єднань, що може не бути регуляризацією в найсуворішому сенсі.

    Але як би вибрати, який із цих методів регуляризації використовувати? Чи є більш принциповий спосіб, ніж "просто спробувати все і подивитися, що працює"?


  • 3
    Чи мають нейронні мережі принципи? Принцип методів чорної скриньки - спробувати все і подивитися, що працює
    Даррін Томас

    І це дуже сумно, ви не знайдете?
    Алекс

    Відповіді:


    6

    Не існує жодних сильних, добре задокументованих принципів, які допоможуть вам вирішити між типами регуляризації в нейронних мережах. Ви навіть можете комбінувати методи регуляризації, не потрібно вибирати лише одну.

    Працездатний підхід може базуватися на досвіді та слідуючи літературі та результатах інших людей, щоб побачити, що дало хороші результати в різних проблемних областях. Зважаючи на це, випадання виявилося дуже успішним для широкого кола проблем, і ви, напевно, можете вважати його хорошим першим вибором майже незалежно від того, що ви намагаєтеся.

    Також іноді просто вибір варіанту, який вам знайомий, може допомогти. Робота з технікою, яку ви розумієте та маєте досвід, може отримати кращі результати, ніж випробування цілої сумки різних варіантів, коли ви не впевнені, який порядок спробувати для параметра . Ключовим питанням є те, що методи можуть взаємодіяти з іншими мережевими параметрами - наприклад, ви можете збільшити розмір шарів із випадом залежно від відсотка випадання.

    Нарешті, це може не мати великого значення, якими методами регуляризації ви користуєтесь, лише щоб ви зрозуміли свою проблему та модель досить добре, щоб помітити її, коли вона переозброєна і може зробити більше регуляризації. Або навпаки, помічайте, коли це не вдається, і вам слід зменшити регуляризацію.


    3

    Спосіб регуляризації

    Для наступних 4 методів регуляризації L1 та регуляризації L2 не потрібно говорити, що вони повинні бути методом регуляризації. Вони скорочують вагу. L1 зосередився б на зменшенні меншої кількості ваги, якщо ваги мають більше значення.

    Випадання запобігає перенапруження, тимчасово випадаючи з нейронів. Врешті-решт, він обчислює всі ваги в середньому, щоб вага не був надто великим для конкретного нейрона, а значить, це метод регуляризації.

    Нормалізація партії не повинна бути методом регуляризації, оскільки головна мета її - прискорити тренування шляхом вибору партії та змусити розподілити вагу біля 0, не надто великої, не надто малої.

    Вибираючи його

    Для мене міні-пакет є необхідним, оскільки він може пришвидшити процес та покращити продуктивність мережі кожного разу.

    L1 і L2 обидва схожі, і я вважаю за краще L1 в невеликій мережі.

    В ідеалі відмова повинна застосовуватися, якщо є велика проблема з варіаціями або надмірне обладнання.

    І останнє, але не менш важливе, я погоджуюся з Нілом Слейтером, що це залежить від ситуації, і оптимального рішення ніколи не знайдеться.

    Рекомендую прочитати це для отримання додаткової інформації. Це дуже хороший матеріал. http://neuralnetworksanddeeplearning.com/chap3.html


    -1

    Подивіться на ці алгоритмічні варіанти як на додаткові гіперпараметри та оптимізуйте їх так само, як і для інших гіперпараметрів. Зазвичай для цього знадобиться більше даних.


    2
    Привіт Алекс, Ласкаво просимо до DS.SE. Це веб-сайт із питань запитання, який має найбагатші відповіді, що пливуть до вершини голосуванням. Хтось проголосував за вас, можливо, оскільки ваша відповідь досить коротка і, як правило, пояснює рішення (наприклад) не пояснюючи деталі гіперпараметрів, термін, який не використовувався оригінальним плакатом.
    Маркус Д
    Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
    Licensed under cc by-sa 3.0 with attribution required.