Випадання фактично не видаляє нейрони, це лише те, що ці конкретні нейрони не грають ніякої ролі (не активуються) для даної партії даних.
Приклад - Припустимо, є дорога з 8 смуг - Коли вантажівки приїжджають, вони проходять смуги 1,2,4,6,7, коли приїжджають машини, вони проходять через смуги 2,3,4,7,8 і коли їдуть велосипеди , вони проходять через смуги 1,2,5,8. Тож незалежно від будь-якого транспортного засобу всі смуги є, але використовуються лише деякі з них.
Так само всі нейрони використовуються в цілій моделі, але для певної групи даних активується лише підмножина нейронів. І модель не згортається пізніше, складність моделі залишається такою, якою є.
Навіщо використовувати випадання?
Як зазначено в книзі глибокого навчання Яна Гудфелло,
випадання є більш ефективним порівняно з іншими стандартними обчислювальними недорогими регуляторами, такими як зменшення ваги, обмеження норми фільтра та обмежена регуляризація активності.
Він також каже:
Однією з переваг випаду є те, що це обчислювально дешево.
Ще однією істотною перевагою відміни є те, що це не суттєво обмежує тип моделі чи тренувальну процедуру, які можна використовувати. Він добре працює майже з будь-якою моделлю, яка використовує розподілене представлення і може бути навчена зі стохастичним градієнтом. Сюди входять подалі нейронні мережі, ймовірнісні моделі, такі як машини з обмеженою діяльністю Больцмана (Srivastava et al., 2014) та періодичні нейронні мережі (Bayer та Osendorfer, 2014; Pascanu et al., 2014a).
Ця книга говорить:
Основна ідея полягає в тому, що введення шуму у вихідні значення шару може порушити шаблони випадків, які не мають значного значення, які мережа почне запам'ятовувати, якщо немає шуму.