У нашому розумінні нейронних мереж є дві основні прогалини: оптимізаційна твердість та ефективність узагальнення.
Навчання нейронної мережі вимагає вирішення сильно невипуклої задачі оптимізації у великих розмірах. Поточні алгоритми навчання базуються на градієнтному спуску, що гарантує лише зближення до критичної точки (локальний мінімум або сідло). Насправді, Anandkumar & Ge 2016 нещодавно довели, що знайти навіть локальний мінімум є важким NP, а це означає, що (якщо припустити P! = NP) існують "погані", важкі для втечі, точки сідла на поверхні помилки.
Однак ці алгоритми навчання є емпірично ефективними для багатьох практичних проблем, і ми не знаємо чому.
Існували такі теоретичні праці, як Choromanska et al. 2016 та Kawaguchi 2016які доводять, що за певних припущень локальні мінімуми є настільки ж хорошими, як і глобальні мінімуми, але припущення, які вони роблять, є дещо нереальними, і вони не стосуються питання поганих сідлових точок.
Інший головний пробіл у нашому розумінні - це узагальнення продуктивності: наскільки добре модель працює на нових прикладах, не помічених під час тренінгу? Неважко показати, що в обмеженні нескінченної кількості прикладів тренувань (вибірки з стаціонарного розподілу) помилка тренінгу сходить до очікуваної помилки на нових прикладах (за умови, що ти можеш тренуватися до глобального оптимуму), але оскільки ми не мають нескінченних прикладів навчання, нас цікавить, скільки прикладів потрібно для досягнення заданої різниці між навчанням та помилкою узагальнення. Статистична теорія навчання вивчає ці межі узагальнення.
Емпірично, для підготовки великої сучасної нейронної мережі потрібна велика кількість навчальних прикладів (Big Data, якщо ви любите моторошні), але не такі монументально великі, щоб бути практично нездійсненними. Але якщо застосовувати найвідоміші межі теорії статистичного навчання (наприклад, Gao & Zhou 2014 ), ти зазвичай отримуєш ці неймовірно величезні цифри. Тому ці межі дуже далекі від жорстких, принаймні, для практичних проблем.
Однією з причин може бути те, що ці межі, як правило, припускають дуже мало щодо розподілу даних, що генерують дані, отже, вони відображають найгірші показники порівняно з конкурентними середовищами, тоді як "природні" середовища мають більшу "усвідомлення".
Можна написати межі узагальнення, що залежать від розподілу, але ми не знаємо, як формально охарактеризувати розподіл за "природними" середовищами. Такі підходи, як алгоритмічна теорія інформації , залишаються незадовільними.
Тому ми досі не знаємо, чому нейронні мережі можна навчити без перенапруги.
Крім того, слід зазначити, що ці два основні питання, здається, пов'язані ще недостатньо зрозумілим способом: межі узагальнення статистичної теорії навчання передбачають, що модель навчається до глобального оптимуму на навчальному наборі, але в практичній ситуації Ніколи б не тренував нейронну мережу до зближення навіть до точки сідла, оскільки це зазвичай спричиняло б надмірне оснащення. Натомість ви припиняєте навчання, коли помилка на витриманому наборі перевірки (що є проксі-сервером для помилки узагальнення) перестає покращуватися. Це відомо як "рання зупинка".
Тож у певному сенсі все це теоретичне дослідження щодо обмеження узагальнювальної помилки глобального оптимуму може бути абсолютно нерелевантним: ми не тільки не можемо його ефективно знайти, але навіть, якби ми могли, ми не хотіли б цього, оскільки воно буде гірше нові приклади, ніж багато "неоптимальних" рішень.
Може статися так, що твердість оптимізації не є вадою нейронної мережі, навпаки, можливо, нейронні мережі можуть взагалі працювати саме тому, що їх важко оптимізувати.
Усі ці спостереження є емпіричними, і немає жодної хорошої теорії, яка б їх пояснювала. Не існує також теорії, яка пояснює, як встановлювати гіперпараметри нейронних мереж (приховану ширину та глибину шару, темпи навчання, архітектурні деталі тощо). Практикуючі використовують свою інтуїцію, відточену досвідом та безліччю спроб та помилок, щоб придумати ефективні значення, в той час як теорія може дозволити нам проектувати нейронні мережі більш систематично.