Два бали:
- Випадання зазвичай порівнюють із ансамблями нейронних мереж. Здається, це має певні переваги щодо ефективності навчання та усереднення кількох нейронних мереж.
- Відкидання легше калібрувати, ніж регуляризація. Є лише один гіперпараметр, який є коефіцієнтом випадання, і люди широко використовують 0,5 під час тренувань (а потім 1,0 при оцінці курсу :)), див., Наприклад, цей приклад TensorFlow .
Так чи інакше, я трохи скептично ставлюсь до емпіричних досліджень нейронних мереж. Існує занадто багато гіперпараметрів для тонкої настройки - від топології мережі до процедури оптимізації градієнта спуску до функцій активації та чого б ви не тестували, як регуляризація. Тоді вся справа стохастична, і зазвичай підвищення продуктивності настільки мале, що навряд чи можна статистично перевірити на відмінності. Багато авторів навіть не заважають робити статистичне тестування. Вони просто мають середню перехресну валідацію і заявляють, що будь-яка модель мала найвищий коефіцієнт десяткової точки, щоб перемогти.
Ви можете виявити, що дослідження, що сприяють відмінюванню, суперечить іншим стимулюючим регуляризаціям.
Я думаю, що все зводиться до естетичних уподобань. Випадання ІМХО звучить більш правдоподібно, ніж регуляризація. Здається, також простіше відкалібрувати. Отже, я особисто віддаю перевагу, коли використовую рамку типу TensorFlow. Якщо нам доведеться використовувати власну нейронну мережу, що ми часто робимо, ми будемо використовувати регуляризацію, оскільки це було легше здійснити.