Теоретичні результати штучних нейронних мереж


13

Я щойно висвітлював Штучні нейронні мережі на курсі машинного навчання Курсара, і хотів би знати більше теорії за ними. Я вважаю, що мотивація того, що вони імітують біологію, є дещо незадовільною.

На поверхні виявляється, що на кожному рівні ми замінюємо коваріати лінійною їх комбінацією. Роблячи це неодноразово, ми допускаємо встановлення нелінійної моделі. Це ставить питання: чому нейронні мережі іноді віддають перевагу просто примірці нелінійної моделі.

Більш загально, я хотів би знати, як штучні нейронні мережі вписуються в байєсівські рамки виводу, докладно описані в книзі Е. Т. Джейнеса "Теорія ймовірностей: логіка науки". Або, простіше кажучи, чому штучні нейронні мережі працюють, коли вони працюють? І, звичайно, те, що вони роблять успішні прогнози, означає, що вони дотримуються вищезгаданих рамок.

Відповіді:


16

Ось цитата з " Зворотнього погляду в майбутнє ", від ET Jaynes.

Нові Adhockeries

В останні роки ортодоксальна звичка винаходити інтуїтивні пристрої, а не звертатися до будь-яких пов'язаних теоретичних принципів, поширюється на нові проблеми, завдяки чому спочатку здається, що було створено кілька нових галузей науки. І все ж вони переймаються міркуванням з неповної інформації; і ми вважаємо, що у нас є теореми, що встановлюють теорію ймовірностей як логіку - загальний засіб вирішення всіх подібних проблем. Відзначимо три приклади.

Нечіткі набори - цілком очевидно, для кожного, хто навчався в байєсівському висновку - грубі наближення до попередніх ймовірностей Баєса. Вони були створені лише тому, що їх практикуючі наполегливо думали про ймовірність з точки зору "випадковості", яка повинна існувати в Природі, але ніколи не була чітко визначена; і так дійшов висновку, що теорія ймовірностей не застосовується до таких проблем. Як тільки людина визнає ймовірність загальним способом вказати неповну інформацію , причина введення нечітких наборів зникає.

Крім того, значна частина штучного інтелекту (AI) - це сукупність інтуїтивних пристроїв, що дозволяють міркувати про неповну інформацію, яка, як і старіші з ортодоксальної статистики, є наближенням до методів Байєса і може бути використана в деяких обмежених класах проблем; але які дають абсурдні висновки, коли ми намагаємось застосувати їх до проблем поза цим класом. Знову ж таки, практикуючі потрапляють у це лише тому, що вони продовжують думати про ймовірність як про фізичну «випадковість» замість неповної інформації. У байєсівському висновку всі ці результати містяться автоматично - і досить тривіально - без обмеження обмеженого класу проблем.

Чудова нова розробка - Neural Nets, що означає систему алгоритмів з чудовою новою властивістю, що вони, як і людський мозок, адаптивні, щоб вони могли вчитися на минулих помилках і автоматично виправляти себе (WOW! Яка нова нова ідея!) . Дійсно, ми не здивовані, побачивши, що нейронні мережі насправді дуже корисні у багатьох програмах; більше, ніж нечіткі набори або AI. Однак нинішні нейронні мережі мають два практичні недоліки; (a) Вони дають результат, визначений поточним вкладом, плюс інформація про попереднє навчання. Цей результат справді є оцінкоюналежної реакції, що базується на всій наявній інформації, але вона не вказує на її точність, і тому вона не говорить про те, наскільки ми близькі до мети (тобто, наскільки потрібно більше навчання); (b) Коли вимагається нелінійна відповідь, звертається до внутрішньо збереженої стандартної "сигмоїдної" нелінійної функції, яка з різними посиленнями та лінійними сумішами може бути зроблена таким чином, щоб певною мірою наблизити справжню нелінійну функцію. (Примітка: акцент мій.)

Але чи нам дійсно потрібно зазначити, що (1) будь-яка адаптивна процедура є, за визначенням, засобом врахування неповної інформації; (2) теорема Байєса - саме мати всіх адаптивних процедур; загальне правило для оновлення будь-якого стану знань прийняти у увагу нової інформації; (3) Коли ці проблеми формулюються в байесівських термінах, один розрахунок автоматично дає як найкращу оцінку, так і її точність; (4) Якщо вимагається нелінійність, теорема Байєса автоматично генерує точну нелінійну функцію, яку викликає проблема, замість того, щоб намагатися побудувати наближення до неї іншим спеціальним пристроєм.

Іншими словами, ми стверджуємо, що це зовсім не нові поля; лише помилкові старти. Якщо сформулювати всі подібні проблеми за стандартним байесівським рецептом, автоматично в усі покращені форми автоматично надходять усі їх корисні результати. Труднощі, які люди, мабуть, мають у розумінні цього, - все це приклади того ж невдалого розуміння зв'язку між абстрактною математикою та реальним світом. Як тільки ми визнаємо, що ймовірності не описують реальність - лише наші відомості про реальність, ворота широко відкриті для оптимального вирішення проблем міркування з цієї інформації.

Кілька коментарів:

  1. Пункт (а) ігнорує події в Байєсівських нейронних мережах, які почалися в кінці вісімдесятих і на початку дев'яностих років (але зауважте, що праця Джейнеса була написана в 1993 році). Погляньте на цю публікацію . Крім того, подумайте про те, щоб прочитати прекрасну кандидатську дисертацію Яріна Гала та переглянути цю чудову презентацію Зубіна Гахрамані.

  2. Я не бачу, як точка (b) може бути "недоліком". Насправді, це суть того, чому нейронні мережі можуть добре наближати великий клас функцій. Зауважте, що останні успішні архітектури перейшли від сигмоїдної до активації ReLU у внутрішніх шарах, надаючи перевагу "глибині" над "широтою". Нещодавно доведені теореми наближення для мереж ReLU.


2
+1 Ніщо не задовольняє, ніж точно знати, де можна знайти точно правильне посилання на відповідь.
Sycorax каже, що повернеться до Моніки

5
Зважаючи на те, що спеціальні пристрої продемонстрували, що вони працюють у багатьох ситуаціях, було б результативно показати (або спростувати), що вони просто вписуються в байєсівські рамки і, отже, отримати глибше розуміння прихильників, які настільки широко розгорнуті ці днів. Мене ця робота цікавить.
Том Артіом Фіодоров,

1

Перш за все, ми не укладаємо лінійні функції одна в одну, щоб отримати нелінійну функцію. Існує чітка причина, чому NN ніколи не можуть працювати так: Укладання лінійних функцій одна в одну знову приведе до лінійної функції.

Що робить NN нелінійними - це функція активації, яка знаходиться за лінійною функцією! Однак, в принципі, ти маєш рацію: ми просто скріплюємо багато логістичних регресій (хоча не лінійних!) Один в одного і ... Тадаа: ми отримуємо з цього щось хороше ... це справедливо? Виявляється, що (з теоретичної точки зору) це насправді справедливо. Ще гірше: використовуючи відому і добре відому теорему Стоун-Вайерштрасса, ми просто доводимо, що нейронних мереж із лише одним прихованим шаром і відсутністю функції виводу на кінцевому вузлі достатньо для наближення будь-яких безперервних функцій (і, повірте, безперервні функції можуть бути некрасивими звірі, дивіться "сходи чортів": https://en.wikipedia.org/wiki/Cantor_distribution[а,б]х↦ =б+а1ϕ1(х)+...+алϕл(х)л

Чому тоді ми використовуємо глибокі NN? Причина полягає в тому, що теорема SW вище лише гарантує наявність достатньо великого розміру шару, щоб ми могли наблизитися до нашої (сподіваюсь, постійної) цільової функції. Однак необхідний розмір шару може бути настільки великим, що жоден комп'ютер ніколи не може обробляти матриці ваги такого розміру. Мережі з більш прихованими шарами здаються хорошим компромісом між "точністю" та обчислюваністю. Я не знаю жодних теоретичних результатів, які б вказували на напрямок "на скільки" зростає виразність NN при розміщенні більш прихованих шарів порівняно з просто збільшенням розміру одного прихованого шару, але, можливо, в Інтернеті є деякі ресурси ...

Чи можемо ми по-справжньому зрозуміти глибокі НН? Приклади запитань: Чому саме NN передбачає, що цей випадок є ПРАВИЛЬНИМ, тоді як він передбачає, що цей інший, подібний випадок буде ЛІЖНИМ? Чому саме він оцінює цього замовника більш цінним, ніж інший? Я не дуже вірю в це. Складнощі моделі полягають у тому, що ти вже не можеш пояснити її досить добре ... Я лише чую, що це все ще активна область досліджень, але я не знаю жодних ресурсів ...

Що робить NN настільки унікальними серед усіх моделей? Справжня причина, чому ми так часто використовуємо NN, пов'язана з наступними двома причинами:

  1. Вони мають природне "потокове" властивість.
  2. Ми можемо сутенер їх до максимуму в багатьох напрямках.

ТfТТ'Т'тощо) ґрунтується на цій властивості. Люди намагалися вписати цю властивість потокового потоку в інші моделі (наприклад, Gradient Boosting), але це не так природно і не так обчислювально дешево, як у налаштуваннях NN.

2. Я маю на увазі, що люди навчили NN робити найсмішніші речі, але в принципі вони просто використовували один і той же фреймворк: складання гладких функцій один в одного, а потім дозволяти комп'ютеру (тобто PyTorch / Tensorflow) робити брудну математику для вас, як комп'ютери. похідна функції втрат wrt ваг. Одним із прикладів може бути цей документде люди використовували підхід RL, а також сутеніли архітектуру NN, щоб вивчити складну мову хімічних речовин, навчивши її працювати зі стеком пам'яті (!). Спробуйте це зробити із збільшенням градієнта ;-) Причина, чому вони повинні це робити, полягає в тому, що мова хімікатів принаймні така ж "складна для засвоєння", як і мова дужок (тобто кожна дужка, що відкривається, пізніше в слові закінчується ), оскільки мова SMILES, яка використовує peopple для опису молекул, містить символи '(' і ')'. З теоретичної інформатики (ієрархія Хомського) відомо, що цю мову не можна описати звичайними автоматами, але потрібні автомати, що працюють в автоматичному режимі (тобто автомати з пам'яттю стека). Це була мотивація для них (я здогадуюсь) навчити цю дивну річ в НН.


-1

"Чому це працює, коли працює?"

н

Отже, все машинне навчання відбувається аналогічно тимчасово.

Машинне навчання схоже на алхімію: є багато загадкових рецептів, ви застосовуєте один, і ви можете отримати золото. Якщо ні, просто застосуйте інший рецепт.

Ніхто не задає питання, яке ви задали, принаймні, не в публікаціях, які я знаю.

Крім цього, існує статистична теорія навчання. Статистична теорія навчання передбачає, що розмір навчального набору йде до нескінченності. Більшість результатів, які я знаю, мають форму: "за певних умов, якщо у вас достатньо великий набір тренувань, ви можете отримати майже максимально хороший результат, скориставшись цією процедурою". Оцінки того, що є "досить великим", виходять за рамки уяви.

Звичайно, проблема полягає в тому, що розмір навчального набору нікуди не дінеться, не кажучи вже про нескінченність.

Отже, я думаю, настав час (1) задати це питання, (2) розробити математичний апарат, який би відповів на питання про всі можливі алгоритми машинного навчання та (3) відповів на це питання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.