5
Чому додавання шару відсіву покращує ефективність глибокого / машинного навчання, враховуючи, що випадання пригнічує деякі нейрони з моделі?
Якщо видалення деяких нейронів призводить до більш ефективної моделі, чому б не використати в першу чергу більш просту нейронну мережу з меншими шарами і меншою кількістю нейронів? Навіщо будувати більшу, більш складну модель на початку і придушувати її частини згодом?