Теорема універсального наближення - нейронні мережі


23

Я опублікував це раніше на MSE, але було запропоновано, що тут, можливо, краще запитати.

У теоремі універсального наближення зазначається, що "стандартна багатошарова мережа подачі вперед з одним прихованим шаром, що містить кінцеву кількість прихованих нейронів, є універсальним наближенням між безперервними функціями на компактних підмножинах Rn, при м'яких припущеннях щодо функції активації".

Я розумію, що це означає, але відповідні документи занадто далеко за мій рівень математичного розуміння, щоб зрозуміти, чому це правда або як прихований шар наближає нелінійні функції.

Отже, з точки зору трохи більш досконалого, ніж основне числення та лінійна алгебра, як мережа передачі вперед з одним прихованим шаром наближає нелінійні функції? Відповідь не обов'язково повинна бути абсолютно конкретною.



Я знайшов візуальне доказ Майкл Нільсен досить корисний
г -

Відповіді:


26

Результат Кібенко є досить інтуїтивним, як я сподіваюся передати нижче; що робить речі більш складними - це він прагнув як до загальності, так і до мінімальної кількості прихованих шарів. Результат Колмогорова (згаданий взн) насправді досягає більш високої гарантії, але дещо менш стосується машинного навчання (зокрема, він не будує стандартної нейронної сітки, оскільки вузли неоднорідні); цей результат, у свою чергу, є химерним, оскільки на його поверхні є лише 3 сторінки, що фіксують деякі межі та безперервні функції, але насправді це побудова набору фракталів. Хоча результат Цибенко незвичний і дуже цікавий завдяки точним методам, які він використовує, результати цього аромату дуже широко використовуються в машинному навчанні (і я можу вказати на інших).

Ось підсумок на високому рівні, чому повинен бути результат Цибенко.

  • Безперервну функцію на компактному наборі можна наблизити кусково-постійною функцією.
  • Кусково-постійну функцію можна представити у вигляді нейронної сітки наступним чином. Для кожної області, де функція є постійною, використовуйте нейронну сітку як функцію індикатора для цього регіону. Потім побудуйте заключний шар з одного вузла, вхідна лінійна комбінація якого є сумою всіх показників, з вагою, що дорівнює постійному значенню відповідної області у вихідній кусочно-постійній функції.

Щодо першого пункту вище, це можна сприймати як твердження "безперервна функція над компактним набором рівномірно безперервна". Що це означає для нас, це те, що ви можете приймати свою безперервну функцію над та деякою цільовою помилкою ϵ > 0 , а потім ви можете обмітати [ 0 , 1 ] d у масштабі τ > 0 (закінчуючи приблизно ( 1) / τ ) d підкубів), так що функція, яка є постійною по кожному підпункту, знаходиться в межах ϵ цільової функції.[0,1]dϵ>0[0,1]dτ>0(1/τ)dϵ

Тепер нейронна сітка не може точно представляти показник, але ви можете дуже близько наблизитися. Припустимо, що "функція передачі" є сигмоподібною. (Функція передачі - це безперервна функція, яку ви застосовуєте до лінійної комбінації входів, щоб отримати значення вузла нейронної сітки. Це узгоджується з розвитком Кібенка: зауважте, що йому потрібні функції, що дорівнюють 0 або 1 в межах межі: за визначенням межі ви отримуєте саме те, про що я говорю, тобто означає, що ви підштовхуєте речі довільно до 0 або 1.

[0,1]

Зауважте, що вищезазначене може здатися на кілька шарів: скажімо, 2 для побудови індикаторів на кубиках, а потім на кінцевому вихідному шарі. Сайбенко намагався досягти двох питань загальності: мінімальна кількість прихованих шарів та гнучкість у виборі функції передачі. Я вже описав, як він працює над гнучкістю у функціях передачі.

Щоб отримати мінімальну кількість шарів, він уникає побудови вище, а замість цього використовує функціональний аналіз, щоб виробити протиріччя. Ось ескіз аргументу.

  • Кінцевий вузол обчислює лінійну комбінацію елементів шару під ним і застосовує до нього функцію передачі. Ця лінійна комбінація є лінійною комбінацією функцій, і як така сама по собі є функцією, функцією в деякому підпросторі функцій, що охоплюється можливими вузлами в прихованому шарі.

  • Підпростір функцій - це як звичайний кінцево-розмірний підпростір, з основною відмінністю, що він потенційно не є закритим набором; ось чому аргументи cybenko всі закривають цей підпростір. Ми намагаємось довести, що це закриття містить усі безперервні функції; це означає, що ми довільно близькі до всіх безперервних функцій.

  • Якби простір функцій був простим (простір Гільберта), ми могли б стверджувати наступним чином. Виберіть деяку цільову безперервну функцію, яка суперечливо повинна лежати у підпросторі, та запроектуйте її на ортогональний доповнення підпростору. Цей залишок повинен бути ненульовим. Але оскільки наш підпростір може представляти такі речі, як ті маленькі кубики вгорі, ми можемо знайти деяку область цього залишку, приставити до нього трохи куба (як вище) і тим самим наблизитися до нашої цільової функції. Це суперечність, оскільки проекції вибирають мінімальні елементи. (Зауважте, я залишаю щось тут: аргумент Кібенко не створює маленьких кубиків, він також обробляє це загалом; саме тут він використовує форму теореми представлення Різза та властивості функцій передачі (якщо я пам'ятаю правильно, для цього кроку є окрема лема,

  • Ми не знаходимось у просторі Гільберта, але можемо використовувати теорему Хана-Банаха, щоб замінити вищевикладений крок проекції (зауважимо, доведення Ган-Банаха використовує аксіому вибору).

Зараз я хотів би сказати кілька речей про результат Колмогорова. Незважаючи на те, що цей результат, очевидно, не потребує передумови Цибенка, я особисто вважаю, що це набагато страшніше.

O(d2)

Гаразд, так, при всьому тому, як ця річ можлива ?!

ϵ>0τ>0

[0,1][0,1]dO(d2)RdRO(d2)

Зауважимо, що результат Cybenko, завдяки використанню лише одного типу функції передачі, більше стосується машинного навчання. Теореми цього типу дуже поширені в машинному навчанні (взн запропонував це у своїй відповіді, однак він посилався на результат Колмогорова, який менш застосовний через користувацькі функції передачі; це послаблюється в деяких більш вигадливих версіях результату Колмогорова (створено інші автори), але вони все ще включають фрактали і принаймні дві функції передачі).

У мене є кілька слайдів на ці теми, які я можу опублікувати, якщо вас зацікавило (сподіваюся, менші збори, ніж зазначені вище, і є кілька фотографій; я написав їх ще до того, як я сприйняв Хана-Банаха). Я думаю, що обидва докази дуже і дуже приємні. (Також у мене є ще одна відповідь на ці теми, але я написав її, перш ніж підкорив результат Колмогорова.)


1
ABϕfA:ϕ(f)1gB:ϕ(g)>1
Сашо Ніколов

3
SfSLL(g)=0gSL(f)=fL(f)як невід'ємна частина щодо певного підписаного заходу. Але це закінчує доказ через умови Цибенка щодо передачі функцій (продовження в наступному коментарі).
матус

3
@SashoNikolov, умова Кібенко полягає в тому, що з огляду на будь-який підписаний захід не точно нульовий, існує деяка афінна функція, так що інтеграція функції передачі, складеної з тією афінною функцією, над цією мірою не дорівнює нулю. Потім він повинен довести лемму, що узагальнені сигмоїди (як я давав вище: межі 0 і 1 зліва та справа) відповідають законопроекту. (продовження в наступному коментарі.)
matus

2
@SashoNikolov. Вище я сказав: "складання куба вздовж залишків". Це полегшило б нашу роботу, оскільки підписаний захід не є точно нульовим, ми б просто забрали якийсь невеликий шматок і вивісили індикатор там. У його випадку йому доведеться трохи попрацювати, але аналогічно це зводиться до переміщення сигмоїди з афінною функцією, так що вона знаходить деяку легку область, отримуючи таким чином ненульовий інтеграл, що суперечить Хану-Банаху (що дорівнює нулю над нашим підпростором) ; в гільбертовому сенсі ми зменшили наше остаточне, протиріччя.
матус

1
Ого, це надзвичайно приємна відповідь. Звичайно, у мене є кілька питань, якщо ви не проти їх відповісти. Результат Cybenko (як ви кажете) здається найбільш корисним для додатків, але я трохи втрачаю справу з підпростором функцій. Як ми проектуємо довільну безперервну функцію на ортогональне доповнення підпростору лінійних комбінацій можливих вузлів. З цього приводу, як ми концептуалізуємо ортогональний комплімент цього підпростору? Чи ближче до простору функції наближаються одна до одної? (Продовження).
Метт Мунсон

3

Існує передовий результат, ключ до машинного навчання, відомий як теорема Колмогорова [1]; Я ніколи не бачив інтуїтивного ескізу, чому це працює. Це може бути пов'язано з різними культурами, які наближаються до нього. Прикладна навчальна натовп розглядає теорему Колмогорова як теорему існування, яка лише вказує на існування NN, тому принаймні структура не надто обмежує, але теорема не гарантує, що ці NN можуть бути знайдені. Математики не так переймаються застосуванням теореми низького рівня.

Теорема також історично використовувалася для виклику / відстоювання притаманної вишуканості багатошарових НН для протидії критиці Перцептронів (Мінський / Паперт), що існували основні функції [тобто нелінійні], які вони не могли вивчити.

Теоретичні комп'ютерні фахівці вважають за краще не вважати NN "наближеннями" , оскільки цей термін має особливе / інше значення. Ймовірно, є якась груба аналогія з кусково-лінійною інтерполяцією, але знову ж таки, я не бачив, як це було викладено.

[1] Колмогоров, А.Н. (1957). Про подання безперервних функцій багатьох змінних шляхом суперпозиції безперервних функцій однієї змінної та додавання. Доклади Академії Наук СРСР, 144, 679-681; Переклад Американського математичного товариства, 28, 55-59 [1963]

[2] 2.3 Можливості наближення потокових нейронних мереж для безперервних функцій

[3] Теорема Колмогорова та багатошарові нейронні мережі Куркова



"цей просунутий результат [...] не бачив інтуїтивно зрозумілого ескізу, чому це працює." Чи був би такий ескіз чималим задумом для когось із передової математики? Чи передові люди з математики навіть інтуїтивно розуміють, чому це працює? Здається, що інтуїтивне розуміння цієї теореми - це те, чого слід сильно бажати прикладному навчальному натовпу, якщо вони повинні розробити вищі топології та алгоритми навчання для ANN.
Метт Мусон

7
Відредаговано для граматики, правопису, пунктуації та великої літери.
Jeffε
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.