Обчислення VC-виміру нейронної мережі


11

Якщо у мене є якась фіксована непотокована (DAG) топологія (фіксований набір вузлів і ребер, але алгоритм навчання може змінювати вагу по краях) сигмовидних нейронів з вхідними нейронами, які можуть приймати рядки лише в як вхідний і веде до одного виходу (що виводить реальне значення, яке ми округляємо до 1 або до -1, якщо це певний фіксований поріг від 0). Чи є швидкий спосіб обчислити (або наблизити) розмір VC цієї мережі?n{1,1}n


Примітки

Я запитав трохи більш точне алгоритмічне переформулювання на CS.SE:

Ефективне обчислення або наближення VC-виміру нейронної мережі


Просто для уточнення: у вас є якісь приховані шари нейронів? Ваше запитання не вказує прямо, чи немає у вас прихованих шарів.
Андрій

@Andrew метод повинен працювати в будь-якому випадку. Оскільки жоден прихований шар не є лінійним класифікатором, це робити тривіально; тому мене більше цікавить нетривіальний випадок; припустимо, що у нас є 2+ прихованих шарів (хоча метод також повинен працювати для меншої кількості, оскільки це простіше).
Артем Казнатчеєв

Відповіді:


6

Я наткнувся на ваш пост, шукаючи загальну формулу для обчислення розмірів ВК на нейронних мережах, але, мабуть, такої немає. Мабуть, у нас є лише мішанка з різними рівняннями ВК, які застосовуються лише у певних вузьких випадках. Застереження: Я грунтуюся на цьому на старих дослідженнях, які я ледве розумію, на концепції VC Dimensions, про яку я лише зараз дізнаваюся. Тим не менш, можливо, варто проглянути цей документ Петра Л. Бартлетта та Вольфганга Мааса 1про обчислюваність розмірів ВК. Зауважте, як вони намагаються отримати формули VC у 13 теоремах, але наскільки різноманітні та численні необхідні умови для кожної. Ці передумови варіюються від кількості операторів у функціях активації до типів дозволених стрибків, кількості нейронів та їх позицій, бітової глибини введення тощо; таких розкиданих "готчей" є стільки, що вони роблять формули корисними лише для певних вузьких класів проблем. Що ще гірше, в теоремах 5 та 8 вони вказують, що функції сигмоїдної активації особливо важко обчислити показники ВК. На с. 6-7 вони пишуть:

"Хоча VC-розмір мереж з кусковими поліноміальними функціями активізації добре зрозумілий, більшість застосувань нейронних мереж використовують логістичну сигмоідну функцію або функцію радіального базису Гаусса. На жаль, неможливо обчислити такі функції, використовуючи кінцеве число арифметичні операції, перелічені в теоремі 5. Однак Карпінський і Макінтір [Карпінський і Макінтір, 1997] розширили теорему 5, щоб дозволити обчислення показників. Доказ використовує ті самі ідеї, але обмеження на кількість рішень системи рівнянь є істотно складніше ".

Я також наткнувся на цей документ із заохочувальною назвою "Обмеження VC-виміру для нейронних мереж: прогрес та перспективи". 2Дуже багато математики перебуває над моєю головою, і я не скупив її досить довго, щоб подолати мою відсутність навичок перекладу, але я підозрюю, що вона не пропонує жодних зруйнуючих рішень, оскільки вона передує другій редакції книги Бартлетт та Маасса, які цитують пізніші роботи тих же авторів. Можливо, пізніші дослідження за останні 20 років поліпшили розрахункові розміри ВК для нейронних мереж, але більшість посилань, які я знайшов, здаються з середини 90-х; Мабуть, тоді була шквал роботи над цією темою, яка з тих пір затихла. Якщо можливості не були розширені новітніми стипендіями далеко за межі того, що було в 90-х, то, сподіваюся, незабаром хтось придумає більш широко застосовне рішення, щоб я міг почати обчислювати розміри ВК і на своїх нейронних мережах. Вибачте, що не міг

1 Бартлетт, Пітер Л. та Маасс, Вольфганг, 2003 р., "Вимір Вапніка-Червоненкіса нейронних мереж", стор. 1188-1192 у Довіднику теорії мозку та нейронних мереж, Арбіб, Майкл А. Ред. MIT Press: Кембридж, штат Массачусетс.

2 Карпінський, Марек і Макінтір, Ангъс, 1995, "Обмеження VC-виміру для нейронних мереж: прогрес і перспективи", стор. 337–341 у матеріалах 2-ї Європейської конференції з теорії обчислювального навчання, Барселона, Іспанія. Вітаній, П. ред. Лекційні записки зі штучного інтелекту, № 904. Спрингер: Берлін.


0

Ось остання робота: http://jmlr.org/papers/v20/17-612.html .

В основному, мережа з ваг, шарів, і Relu активацій наступним чином : для деяких постійних і .WL

cWLlog(W/L)VCCWLlog(WL)
cC

Зважаючи на обгрунтованість роботи, я думаю, що це дає зручні межі. Я не впевнений, проте, щільність меж (особливо констант і ), оскільки я не повністю її прочитав.cC

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.