Яку відповідь хоче TCS на запитання "Чому нейронні мережі працюють так добре?"


52

Мій кандидат наук. є чистою математикою, і я визнаю, що я не знаю багато (тобто нічого) про теоретичний CS. Однак я почав досліджувати неакадемічні варіанти своєї кар’єри і, знайомлячись з машинним навчанням, натрапив на твердження типу "ніхто не розуміє, чому нейронні мережі працюють добре", що мені здалося цікавим.

По суті, моє запитання полягає в тому, які відповіді хочуть дослідники? Ось що я знайшов у своєму короткому пошуку по темі:

  • Алгоритми, що реалізують прості нейронні мережі, досить прості.
  • Процес SGD добре розуміється математично, як і статистична теорія.
  • Теорема універсального наближення є потужною та доведеною.
  • Непоганий недавній документ https://arxiv.org/abs/1608.08225, який по суті дає відповідь, що універсальне наближення набагато більше, ніж нам насправді потрібно на практиці, оскільки ми можемо зробити сильні спрощення припущень щодо функцій, які ми намагаємося моделювати за допомогою нейронна мережа.

У вищезгаданій роботі вони заявляють (перефразуючи) "Алгоритми GOFAI повністю розуміються аналітично, але багато алгоритмів ANN розуміються лише евристично". Теореми конвергенції для реалізованих алгоритмів є прикладом аналітичного розуміння того, що, здається, ми маємо щодо нейронних мереж, тому твердження на цьому рівні загальності не дуже мені розповідає про те, що відомо проти невідомого або що вважатиметься "відповіддю . "

Автори напрошують у висновку, що такі питання, як ефективні межі розміру нейронної мережі, необхідні для наближення даного полінома, є відкритими та цікавими. Які ще є приклади математично конкретних аналітичних питань, на які потрібно відповісти, щоб сказати, що ми "розуміємо" нейронні мережі? Чи є питання, на які можна відповісти більш чистою математичною мовою?

(Я конкретно думаю про методи в теорії представлення через використання фізики в цій роботі --- і, егоїстично, тому що це моє поле дослідження. Однак я також можу уявити такі сфери, як комбінаторика / теорія графів, алгебраїчна геометрія та топологія, що забезпечує життєздатні інструменти.)


3
Чи справді добре зрозумілий GOFAI? Багато GOFAI, здається, зводиться до вирішення проблеми SAT, архетипічної проблеми, повного NP. Сучасні розв'язувачі SAT працюють надзвичайно добре на практиці, хоча вони не повинні відповідати існуючій теорії. Чому?
Мартін Бергер

в цій області дійсно є поглиблене навчання та поглиблене вивчення / зміна / історія в цій галузі та її суттєва зміна парадигми в цій галузі. глибоке навчання почалося лише протягом останнього півріччя. проста відповідь полягає в тому, що нейронні мережі можуть представляти довільно складні функції і що зараз складність знаходиться на дуже просунутому рівні з глибокими нейронними мережами. Інша відповідь полягає в тому, що проблеми, які вивчаються, а може навіть і "реальність взагалі", "побудовані з особливостей", і АНН зараз вміють вивчати дуже складні функції.
vzn

Я не думаю, що люди насправді шукають "відповідь". Вони намагаються використовувати нейронні мережі для вирішення проблем, і якщо проблема справді вирішена, то це добре. Знання того, як мережі досягли цього рішення, тут не обов'язково цікавить. Нікого не цікавить, якщо це чорний / непрозорий ящик, поки це вирішує проблему.
xji

Відповіді:


38

Існує купа теорем "без вільного обіду" в машинному навчанні, що говорить про те, що не може бути жодного головного алгоритму навчання, який виконує однаково краще, ніж усі інші алгоритми (див., Наприклад, тут, http: //www.no-free- lunch.org/ ). Впевнений, глибоке навчання можна «зламати» без особливих труднощів: http://www.evolvingai.org/fooling

Отже, щоб бути доказово ефективним, учень потребує індуктивного зміщення --- тобто деяких попередніх припущень щодо даних. Приклади індуктивного зміщення включають припущення про обмеженість даних або низьку розмірність, або про те, що розподіл фактором добре, або має великий запас тощо. Різні успішні алгоритми навчання використовують ці припущення для підтвердження гарантій узагальнення. Наприклад, (лінійний) SVM добре працює, коли дані добре розділені в просторі; інакше - не дуже.

Я думаю, що головне завдання глибокого навчання - зрозуміти, в чому полягає його індуктивна зміщення. Іншими словами, це довести теореми такого типу: Якщо дані тренінгу задовольняють цим припущенням, то я можу гарантувати щось щодо ефективності узагальнення. (В іншому випадку всі ставки відключені.)

2


Слід зазначити, що змагальні приклади не характерні лише для глибоких нейронних мереж. Вони також можуть бути легко побудовані для лінійної та логістичної регресії, наприклад: arxiv.org/pdf/1412.6572.pdf
Ленар Хойт

1
Так, але лінійна та логістична регресія набагато краще теоретично зрозумілі.
Aryeh

2
Можливо, слід також зазначити, що теореми NFL можуть не грати великої ролі у практичному машинному навчанні, оскільки, хоча NFL стосується класу всіх функцій, проблеми реального світу, як правило, обмежуються, наприклад, гладкими функціями або навіть більш конкретними функціями, такими як ті, які розглянуті у статті Лін та Тегмарк. Можливо, вдасться знайти індуктивні упередження, які охоплюють усі проблеми навчання, які нас цікавлять.
Ленар Хойт

4
Тоді ми повинні спочатку формалізувати цей простір "усіх навчальних проблем, які нас цікавлять".
Aryeh

1
Це, безумовно, здається вартим, особливо що стосується безпеки ШІ. Нам потрібно вміти достовірно визначати, яким алгоритмом машинного навчання слід вивчати.
Ленар Хойт

26

У нашому розумінні нейронних мереж є дві основні прогалини: оптимізаційна твердість та ефективність узагальнення.

Навчання нейронної мережі вимагає вирішення сильно невипуклої задачі оптимізації у великих розмірах. Поточні алгоритми навчання базуються на градієнтному спуску, що гарантує лише зближення до критичної точки (локальний мінімум або сідло). Насправді, Anandkumar & Ge 2016 нещодавно довели, що знайти навіть локальний мінімум є важким NP, а це означає, що (якщо припустити P! = NP) існують "погані", важкі для втечі, точки сідла на поверхні помилки.
Однак ці алгоритми навчання є емпірично ефективними для багатьох практичних проблем, і ми не знаємо чому.
Існували такі теоретичні праці, як Choromanska et al. 2016 та Kawaguchi 2016які доводять, що за певних припущень локальні мінімуми є настільки ж хорошими, як і глобальні мінімуми, але припущення, які вони роблять, є дещо нереальними, і вони не стосуються питання поганих сідлових точок.

Інший головний пробіл у нашому розумінні - це узагальнення продуктивності: наскільки добре модель працює на нових прикладах, не помічених під час тренінгу? Неважко показати, що в обмеженні нескінченної кількості прикладів тренувань (вибірки з стаціонарного розподілу) помилка тренінгу сходить до очікуваної помилки на нових прикладах (за умови, що ти можеш тренуватися до глобального оптимуму), але оскільки ми не мають нескінченних прикладів навчання, нас цікавить, скільки прикладів потрібно для досягнення заданої різниці між навчанням та помилкою узагальнення. Статистична теорія навчання вивчає ці межі узагальнення.
Емпірично, для підготовки великої сучасної нейронної мережі потрібна велика кількість навчальних прикладів (Big Data, якщо ви любите моторошні), але не такі монументально великі, щоб бути практично нездійсненними. Але якщо застосовувати найвідоміші межі теорії статистичного навчання (наприклад, Gao & Zhou 2014 ), ти зазвичай отримуєш ці неймовірно величезні цифри. Тому ці межі дуже далекі від жорстких, принаймні, для практичних проблем.
Однією з причин може бути те, що ці межі, як правило, припускають дуже мало щодо розподілу даних, що генерують дані, отже, вони відображають найгірші показники порівняно з конкурентними середовищами, тоді як "природні" середовища мають більшу "усвідомлення".
Можна написати межі узагальнення, що залежать від розподілу, але ми не знаємо, як формально охарактеризувати розподіл за "природними" середовищами. Такі підходи, як алгоритмічна теорія інформації , залишаються незадовільними.
Тому ми досі не знаємо, чому нейронні мережі можна навчити без перенапруги.

Крім того, слід зазначити, що ці два основні питання, здається, пов'язані ще недостатньо зрозумілим способом: межі узагальнення статистичної теорії навчання передбачають, що модель навчається до глобального оптимуму на навчальному наборі, але в практичній ситуації Ніколи б не тренував нейронну мережу до зближення навіть до точки сідла, оскільки це зазвичай спричиняло б надмірне оснащення. Натомість ви припиняєте навчання, коли помилка на витриманому наборі перевірки (що є проксі-сервером для помилки узагальнення) перестає покращуватися. Це відомо як "рання зупинка".
Тож у певному сенсі все це теоретичне дослідження щодо обмеження узагальнювальної помилки глобального оптимуму може бути абсолютно нерелевантним: ми не тільки не можемо його ефективно знайти, але навіть, якби ми могли, ми не хотіли б цього, оскільки воно буде гірше нові приклади, ніж багато "неоптимальних" рішень.
Може статися так, що твердість оптимізації не є вадою нейронної мережі, навпаки, можливо, нейронні мережі можуть взагалі працювати саме тому, що їх важко оптимізувати.
Усі ці спостереження є емпіричними, і немає жодної хорошої теорії, яка б їх пояснювала. Не існує також теорії, яка пояснює, як встановлювати гіперпараметри нейронних мереж (приховану ширину та глибину шару, темпи навчання, архітектурні деталі тощо). Практикуючі використовують свою інтуїцію, відточену досвідом та безліччю спроб та помилок, щоб придумати ефективні значення, в той час як теорія може дозволити нам проектувати нейронні мережі більш систематично.


11

Ще одне питання щодо цього, щоб додати до зауважень @ Aryeh: Для багатьох інших моделей навчання ми знаємо "форму" простору гіпотез. SVM - найкращий приклад цього в тому, що ви знаходите - це лінійний роздільник у (можливо, високомірному) просторі Гільберта.

Для нейронних мереж взагалі немає такого чіткого опису або навіть наближення. І такий опис важливий для нас, щоб зрозуміти, що саме нейромережа знаходить у даних.


Що б ви назвали «формою» простору гіпотез? :) Чи відповідає наша теорема 2.1 (стор. 3) на ваше запитання: eccc.weizmann.ac.il/report/2017/098 ? : D
Анірбіт

4

Принцип інформаційного пляшку запропонований для пояснення успіху глибоких нуерових мереж.

Ось цитата журналу Quanta

Минулого місяця YouTube-відео на конференційній розмові в Берліні, яке широко розповсюджувалося серед дослідників штучного інтелекту, запропонувало можливу відповідь. У бесіді Нафталі Тішбі, вчений-інформатик та нейрознавець з Єврейського університету в Єрусалимі, представив докази на підтвердження нової теорії, що пояснює, як працює глибоке навчання. Тишбі стверджує, що глибокі нейронні мережі вивчають згідно з процедурою, що називається "вузьким місцем інформації", яку він та два колабораціоністи вперше описали суто теоретично в 1999 році. інформація через вузьке місце, зберігаючи лише функції, найбільш відповідні загальним поняттям.

Список літератури:

1- Поглиблене навчання та вузький принцип інформації , Нафталі Тішбі та Нога Заславський

2- Відкриття чорної скриньки глибоких нейронних мереж за допомогою інформації , Равід Шварц-Зів та Нафталі Тішбі

3- конференція Обговорення відео: Теорія інформації глибинного навчання по Нафтан Тішбі


1

Я б сказав, що нам ще потрібно знайти ефективний алгоритм для тренування глибоких нейронних мереж. Так, SGD добре працює на практиці, але знайти кращий алгоритм, який має гарантії наближення до глобального мінімуму було б дуже приємно.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.