Універсальна теорема наближення для згорткових мереж


14

Універсальна теорема наближення є досить відомим результатом для нейронних мереж, в основному вказуючи, що за деякими припущеннями функція може бути рівномірно наближена нейронною мережею в будь-якій точності.

Чи є якийсь аналогічний результат, який стосується конволюційних нейронних мереж?

Відповіді:


7

Це цікаве питання, однак, йому не вистачає належного уточнення, що вважається згортковою нейронною мережею .

Чи є єдиною вимогою, що мережа повинна включати операцію згортання? Чи повинен він включати лише операції згортання? Чи допускаються операції об’єднання? Конволюційні мережі, що застосовуються на практиці, використовують комбінацію операцій, часто включаючи повністю пов'язані шари (як тільки у вас є повністю пов'язані шари, ви маєте теоретичну універсальну здатність наближення).

Щоб дати вам відповідь, розглянемо наступний випадок: Повністю пов'язаний шар з входами та виходами реалізується за допомогою вагової матриці . Ви можете змоделювати цю операцію за допомогою двох шарів згортки:DKWRK×D

  1. Перший з них має фільтри форми . Елемент фільтра дорівнює , решта - нулі. Цей шар перетворює вхід у проміжний простір де кожен вимір представляє добуток ваги та його відповідний вхід.K×DDdk,dWk,dKD

  2. Другий шар містить фільтри форми . Елементи фільтра це одиниці, решта - нулі. Цей шар виконує підсумовування продуктів з попереднього шару.KKDkD(k+1)Dk

Така згорнута мережа імітує повністю пов'язану мережу і, таким чином, має однакові можливості універсального наближення. Вам належить розглянути, наскільки корисний такий приклад на практиці, але я сподіваюся, що він відповідає на ваше запитання.


1
Така конструкція є досить очевидною, але має місце лише при, наприклад, нульових граничних умовах. При більш природній вимозі, наприклад, періодичні граничні умови (що робить трансляцію оператора еквівалентною), вона не вдається.
Йонас Адлер

1
Так, ця очевидна конструкція передбачає згортання лише на вході (без прокладки). Як я вже сказав, якщо ви не вкажете, що дозволено, а що не відповідає вашому визначенню CNN, я припускаю, що це правильний підхід. Також зауважте, що практичних наслідків UAT практично немає, тому я не впевнений, чи є навіть сенс заглиблюватися в це, вказуючи різні версії CNN та демонструючи щось подібне для кожної з них.
Ян Кукацька

6

Здається, на це запитання відповів ствердно у цій останній статті Дмитра Яроцького: Універсальні наближення інваріантних карт нейронними мережами .

У статті показано, що будь-яка еквівалентна трансляція може бути довільно апроксимована конволюційною нейронною мережею, враховуючи, що вона достатньо широка, прямо пряма аналогія з класичною теоремою універсального наближення.


3

Див паперу вселенськість глибоких згортальних нейронних мереж на Дін-Суан Чжоу , який показує , що згорткові нейронні мережі є універсальними, тобто вони можуть апроксимувати будь-яку безперервну функцію з будь-якою точністю , коли глибина нейронної мережі є досить великим.


1
Здається, це передбачає нульові граничні умови, тому результат повинен бути таким самим, як згадував jan-kukacka
Йонас Адлер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.