Результат Кібенко є досить інтуїтивним, як я сподіваюся передати нижче; що робить речі більш складними - це він прагнув як до загальності, так і до мінімальної кількості прихованих шарів. Результат Колмогорова (згаданий взн) насправді досягає більш високої гарантії, але дещо менш стосується машинного навчання (зокрема, він не будує стандартної нейронної сітки, оскільки вузли неоднорідні); цей результат, у свою чергу, є химерним, оскільки на його поверхні є лише 3 сторінки, що фіксують деякі межі та безперервні функції, але насправді це побудова набору фракталів. Хоча результат Цибенко незвичний і дуже цікавий завдяки точним методам, які він використовує, результати цього аромату дуже широко використовуються в машинному навчанні (і я можу вказати на інших).
Ось підсумок на високому рівні, чому повинен бути результат Цибенко.
- Безперервну функцію на компактному наборі можна наблизити кусково-постійною функцією.
- Кусково-постійну функцію можна представити у вигляді нейронної сітки наступним чином. Для кожної області, де функція є постійною, використовуйте нейронну сітку як функцію індикатора для цього регіону. Потім побудуйте заключний шар з одного вузла, вхідна лінійна комбінація якого є сумою всіх показників, з вагою, що дорівнює постійному значенню відповідної області у вихідній кусочно-постійній функції.
Щодо першого пункту вище, це можна сприймати як твердження "безперервна функція над компактним набором рівномірно безперервна". Що це означає для нас, це те, що ви можете приймати свою безперервну функцію над та деякою цільовою помилкою ϵ > 0 , а потім ви можете обмітати [ 0 , 1 ] d у масштабі τ > 0 (закінчуючи приблизно ( 1) / τ ) d підкубів), так що функція, яка є постійною по кожному підпункту, знаходиться в межах ϵ цільової функції.[ 0 , 1 ]гϵ > 0[ 0 , 1 ]гτ> 0( 1 / τ)гϵ
Тепер нейронна сітка не може точно представляти показник, але ви можете дуже близько наблизитися. Припустимо, що "функція передачі" є сигмоподібною. (Функція передачі - це безперервна функція, яку ви застосовуєте до лінійної комбінації входів, щоб отримати значення вузла нейронної сітки. Це узгоджується з розвитком Кібенка: зауважте, що йому потрібні функції, що дорівнюють 0 або 1 в межах межі: за визначенням межі ви отримуєте саме те, про що я говорю, тобто означає, що ви підштовхуєте речі довільно до 0 або 1.
[ 0 , 1 ]
Зауважте, що вищезазначене може здатися на кілька шарів: скажімо, 2 для побудови індикаторів на кубиках, а потім на кінцевому вихідному шарі. Сайбенко намагався досягти двох питань загальності: мінімальна кількість прихованих шарів та гнучкість у виборі функції передачі. Я вже описав, як він працює над гнучкістю у функціях передачі.
Щоб отримати мінімальну кількість шарів, він уникає побудови вище, а замість цього використовує функціональний аналіз, щоб виробити протиріччя. Ось ескіз аргументу.
Кінцевий вузол обчислює лінійну комбінацію елементів шару під ним і застосовує до нього функцію передачі. Ця лінійна комбінація є лінійною комбінацією функцій, і як така сама по собі є функцією, функцією в деякому підпросторі функцій, що охоплюється можливими вузлами в прихованому шарі.
Підпростір функцій - це як звичайний кінцево-розмірний підпростір, з основною відмінністю, що він потенційно не є закритим набором; ось чому аргументи cybenko всі закривають цей підпростір. Ми намагаємось довести, що це закриття містить усі безперервні функції; це означає, що ми довільно близькі до всіх безперервних функцій.
Якби простір функцій був простим (простір Гільберта), ми могли б стверджувати наступним чином. Виберіть деяку цільову безперервну функцію, яка суперечливо повинна лежати у підпросторі, та запроектуйте її на ортогональний доповнення підпростору. Цей залишок повинен бути ненульовим. Але оскільки наш підпростір може представляти такі речі, як ті маленькі кубики вгорі, ми можемо знайти деяку область цього залишку, приставити до нього трохи куба (як вище) і тим самим наблизитися до нашої цільової функції. Це суперечність, оскільки проекції вибирають мінімальні елементи. (Зауважте, я залишаю щось тут: аргумент Кібенко не створює маленьких кубиків, він також обробляє це загалом; саме тут він використовує форму теореми представлення Різза та властивості функцій передачі (якщо я пам'ятаю правильно, для цього кроку є окрема лема,
Ми не знаходимось у просторі Гільберта, але можемо використовувати теорему Хана-Банаха, щоб замінити вищевикладений крок проекції (зауважимо, доведення Ган-Банаха використовує аксіому вибору).
Зараз я хотів би сказати кілька речей про результат Колмогорова. Незважаючи на те, що цей результат, очевидно, не потребує передумови Цибенка, я особисто вважаю, що це набагато страшніше.
Виведення ( д2)
Гаразд, так, при всьому тому, як ця річ можлива ?!
ϵ > 0τ> 0
[ 0 , 1 ][ 0 , 1 ]гВиведення ( д2)RгRВиведення ( д2)
Зауважимо, що результат Cybenko, завдяки використанню лише одного типу функції передачі, більше стосується машинного навчання. Теореми цього типу дуже поширені в машинному навчанні (взн запропонував це у своїй відповіді, однак він посилався на результат Колмогорова, який менш застосовний через користувацькі функції передачі; це послаблюється в деяких більш вигадливих версіях результату Колмогорова (створено інші автори), але вони все ще включають фрактали і принаймні дві функції передачі).
У мене є кілька слайдів на ці теми, які я можу опублікувати, якщо вас зацікавило (сподіваюся, менші збори, ніж зазначені вище, і є кілька фотографій; я написав їх ще до того, як я сприйняв Хана-Банаха). Я думаю, що обидва докази дуже і дуже приємні. (Також у мене є ще одна відповідь на ці теми, але я написав її, перш ніж підкорив результат Колмогорова.)