Я чув, як Ендрю Нг (у відео, якого я, на жаль, більше не можу знайти) розповів про те, як розуміння місцевих мінімумів у проблемах глибокого навчання змінилося в тому сенсі, що вони зараз вважаються менш проблематичними, оскільки у просторах з великими розмірами (зустрічаються в глибоке навчання) критичні точки, швидше, будуть сідловими точками або плато, а не місцевими мінімумами.
Я бачив документи (наприклад, цей ), які обговорюють припущення, згідно з якими "кожен локальний мінімум - це глобальний мінімум". Ці припущення є досить технічними, але, наскільки я розумію, вони, як правило, нав'язують структуру нейронної мережі, що робить її дещо лінійною.
Чи справедливим є твердження, що при глибокому навчанні (включаючи нелінійні архітектури) плато є скоріше, ніж локальні мінімуми? І якщо так, то чи існує за цим (можливо, математична) інтуїція?
Чи є щось особливе щодо глибокого навчання та сідла?