Чи насправді бракує фундаментальної теорії глибокого навчання?


10

Я неодноразово чув, що однією з основних / відкритих проблем глибокого навчання є відсутність «загальної теорії», оскільки насправді ми не знаємо, чому глибоке навчання так добре працює. Навіть на сторінці Вікіпедії про глибоке вивчення є подібні коментарі . Чи є такі заяви достовірними та репрезентативними щодо стану поля?

Відповіді:


5

Існує стаття під назвою Чому Deep Learning працює так добре? .

"Однак, ще не до кінця зрозуміло, чому глибоке навчання так добре працює. На відміну від алгоритмів GOFAI (" хороший старомодний AI "), які розробляються вручну і повністю розуміються аналітично, багато алгоритмів, що використовують штучні нейронні мережі, розуміються лише на евристичний рівень, де ми емпірично знаємо, що певні протоколи навчання, що використовують великі набори даних, матимуть відмінну ефективність. Це нагадує ситуацію з людським мозком: ми знаємо, що якщо ми навчатимемо дитину за певною навчальною програмою, вона навчиться певним навички - але нам не вистачає глибокого розуміння того, як її мозок досягає цього ".


3

Це дуже сильно так. Моделі глибокого навчання навіть неглибокі, такі як штабельні автокодери та нейронні мережі, не повністю вивчені. Докладаються зусилля, щоб зрозуміти, що відбувається з процесом оптимізації для такої складної змінної інтенсивної функції. Але, це непросте завдання.

Один із способів, якими користуються дослідники, щоб виявити, як працює глибоке навчання, використовуючи генеративні моделі. Спочатку ми тренуємо алгоритм навчання та систематично перешкоджаємо його, пропонуючи йому генерувати приклади. Спостерігаючи отримані згенеровані приклади, ми зможемо зробити висновок про те, що відбувається в алгоритмі на більш значущому рівні. Це дуже схоже на використання інгібіторів у нейронауці, щоб зрозуміти, для чого використовуються різні компоненти мозку. Наприклад, ми знаємо, що зорова кора там, де вона є, тому що якщо ми пошкодимо її, ви осліпнете.


2

Це, мабуть, залежить від того, що розуміється під "фундаментальною теорією", але немає глибокої кількісної теорії в глибокому навчанні, частина якої є дуже загальною, незважаючи на твердження, що суперечать.

Хорошим прикладом є робота навколо методів навчання на основі енергії. Дивіться, наприклад, роботу Ніла та Хінтона щодо варіативних висновків та вільної енергії: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

Також цей посібник з мінімізації енергії як "загальна теоретична основа для багатьох моделей навчання" від Ян Лекун та його колег: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

І загальна основа для моделей на основі енергії від Scellier та Bengio: https://arxiv.org/pdf/1602.05179.pdf

Існує також попередня робота Hinton & Sejnowski, яка аналітично показує, що конкретна мережа, натхненна Хопфілдом + непідтримуваний алгоритм навчання, може наближати оптимальне для Бейса висновок: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

Існує багато робіт, що пов'язують глибоке навчання з теоретичною нейронаукою, наприклад, наступна, яка свідчить про те, що наслідки зворотного розповсюдження можна досягти в біологічно правдоподібних нейронних архітектурах: https://arxiv.org/pdf/1411.0247.pdf

Звичайно, є багато відкритих питань і немає єдиної, безперервної уніфікованої теорії, але те саме можна сказати майже в будь-якій галузі.


1

Ваша цитата у Вікіпедії сумнівна, оскільки глибоке навчання добре розвинене. Фактично, це є [citation needed]на сторінці Вікіпедії.

Подивіться на https://github.com/terryum/awesome-deep-learning-papers . За посиланням є 100 статей, ви все ще думаєте, що глибокому навчанню не вистачає "загальної теорії"?

Так. Глибоке навчання важко зрозуміти, оскільки це дуже складна модель. Але це не означає, що у нас немає теорій.

Можливо, limeпакет і це папір: "Чому я тобі повинен довіряти?": Пояснення передбачень будь-якого класифікатора допоможе тобі. У статті запропоновано нам бути в змозі наблизити складну модель (включає глибоке навчання) локально за допомогою набагато простішої моделі.


3
Багато цікавих додатків не означає, що ці програми були розроблені після певного суворого процесу. "Гм ... можливо, я повинен спробувати 8 шарів замість цього? Ага ... це працює! Чудово, давайте опублікуємо результати."
Кріс Андерсон

2
"Глибоке навчання важко зрозуміти, оскільки це дуже складна модель. Але це не означає, що у нас немає теорій". Щоправда, але у нас теж немає теорій. Математичне розуміння методик у літературі дуже мало. Більшість пояснень того, як чи чому працює глибоке навчання, ґрунтуються на інтуїції та емпіризмі, що нормально, але не є теорією.
користувач27182

0

Основним питанням, яке залишається в теорії глибокого навчання, є те, чому такі величезні моделі (з набагато більшою кількістю параметрів, ніж точки даних) не надмірно використовуються наборами даних, які ми використовуємо.

Класична теорія, заснована на заходах складності, не пояснює поведінку практичних нейронних мереж. Наприклад, оцінки розмірності ВК дають межі вакуумного узагальнення. Наскільки я знаю, найбільш жорсткі (верхня і нижня) межі розміру VC наведені в [1] і впорядковані за кількістю ваг в мережі. Очевидно, що ця найгірша складність не може пояснити, як, наприклад, велике відновлення узагальнюється на CIFAR або MNIST.

Останнім часом були й інші спроби забезпечити генералізацію нейронних мереж, наприклад, стосовно нейронного дотичного ядра або за допомогою різних нормотворчих заходів щодо ваг. Відповідно, виявлено, що вони не стосуються мереж практично розміру та мають інші незадовільні властивості [2].

Існує деяка робота в рамках PAC Bayes для не вакуумних меж, наприклад [3]. Однак ці установки потребують певних знань про навчену мережу, і тому вони відрізняються за смаком від класичного PAC-аналізу.

Деякі інші аспекти:

  • оптимізація: як ми отримуємо «хороші» рішення з градієнтного спуску на такій невипуклій проблемі? (Є кілька відповідей на це в останній літературі)

  • інтерпретаційність: Чи можемо ми зрозуміти на інтуїтивному рівні, що «мережа думає»? (Не моя область)

(неповні) посилання:


0

Я хотів би зазначити, що не існує хорошої теорії того, чому машинне навчання взагалі працює. Межі VC все ще припускають модель, але реальність не відповідає жодному з цих математичних ідеалів. Зрештою, що стосується застосування, все зводиться до емпіричних результатів. Навіть кількісно визначити подібність зображень за допомогою алгоритму, який відповідає інтуїтивно зрозумілому людині, дуже важко

Так чи інакше, NN не працює добре у своїй повністю пов'язаній формі. Усі успішні мережі мають певну регуляризацію, вбудовану в мережеву архітектуру (CNN, LSTM тощо).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.