Чи є дослідження, які досліджують випадання від інших регуляризацій?


9

Чи опубліковані будь-які статті, які показують відмінності методів регуляризації для нейронних мереж, бажано для різних доменів (або принаймні різних наборів даних)?

Я запитую, тому що в даний час я відчуваю, що більшість людей, здається, використовують лише випадання для регуляризації в комп’ютерному зорі. Я хотів би перевірити, чи не було б причини (не) використовувати різні способи регуляризації.

Відповіді:


3

Два бали:

  1. Випадання зазвичай порівнюють із ансамблями нейронних мереж. Здається, це має певні переваги щодо ефективності навчання та усереднення кількох нейронних мереж.
  2. Відкидання легше калібрувати, ніж регуляризація. Є лише один гіперпараметр, який є коефіцієнтом випадання, і люди широко використовують 0,5 під час тренувань (а потім 1,0 при оцінці курсу :)), див., Наприклад, цей приклад TensorFlow .

Так чи інакше, я трохи скептично ставлюсь до емпіричних досліджень нейронних мереж. Існує занадто багато гіперпараметрів для тонкої настройки - від топології мережі до процедури оптимізації градієнта спуску до функцій активації та чого б ви не тестували, як регуляризація. Тоді вся справа стохастична, і зазвичай підвищення продуктивності настільки мале, що навряд чи можна статистично перевірити на відмінності. Багато авторів навіть не заважають робити статистичне тестування. Вони просто мають середню перехресну валідацію і заявляють, що будь-яка модель мала найвищий коефіцієнт десяткової точки, щоб перемогти.

Ви можете виявити, що дослідження, що сприяють відмінюванню, суперечить іншим стимулюючим регуляризаціям.

Я думаю, що все зводиться до естетичних уподобань. Випадання ІМХО звучить більш правдоподібно, ніж регуляризація. Здається, також простіше відкалібрувати. Отже, я особисто віддаю перевагу, коли використовую рамку типу TensorFlow. Якщо нам доведеться використовувати власну нейронну мережу, що ми часто робимо, ми будемо використовувати регуляризацію, оскільки це було легше здійснити.


0

Безумовно. Папір від самого Творця Джеффрі Хінтона. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf прочитайте його. Але я закликаю вас бачити різницю, виконуючи його.


2
У документі явно не порівнюються різні підходи до регуляризації, за винятком демонстрації відміни як поліпшення сучасних результатів (попередні результати, швидше за все, використовували інші форми регуляризації, але вони не перераховані). Він також згадує обмеження ваги maxnorm як ефективний додатковий регулятор для збільшення випаду.
Ніл Слейтер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.