Чи модульні нейронні мережі ефективніші, ніж великі монолітні мережі при будь-яких завданнях?

16

Модульні / кілька нейронних мереж (MNN) обертаються навколо навчання менших, незалежних мереж, які можуть подаватись одна в одну чи іншу вищу мережу.

В принципі, ієрархічна організація могла б дати нам змогу зрозуміти складніші проблемні простори та досягти більш високої функціональності, але, здається, важко знайти приклади конкретних досліджень, зроблених у минулому щодо цього. Я знайшов кілька джерел:

https://en.wikipedia.org/wiki/Modular_neural_network

https://www.teco.edu/~albrecht/neuro/html/node32.html

https://vtechworks.lib.vt.edu/bitstream/handle/10919/27998/etd.pdf?sequence=1&isAllowed=y

У мене є кілька конкретних питань:

Чи були нещодавні дослідження щодо використання MNN?
Чи є якісь завдання, де MNN демонструють кращу ефективність, ніж великі одиночні мережі?
Чи можуть MNN використовуватися для мультимодальної класифікації, тобто тренувати кожну мережу на принципово іншому типі даних (текст проти зображення) та подавати вперед до посередника вищого рівня, який працює на всіх результатах?
Чи не з точки зору інженерії програмного забезпечення, чи не є більш стійкими до несправностей і їх легко виділити в розподіленій системі?
Чи була якась робота з динамічної адаптації топологій підмереж, використовуючи такий процес, як пошук нейронної архітектури?
Взагалі, чи практичні будь-які способи практичної мережі?

Вибачте, якщо ці питання здаються наївними, я щойно потрапив до МЛ та, ширше, CS з біології / нейронауки і мене захоплює потенційна взаємодія.

Я дуже ціную, що ви знайшли час і позичили своє розуміння!

— Сувора Сікка
джерело

Я б подумав про реалізацію такої модульної системи для покращення продуктивності та відфільтрування - безумовно - непотрібних залежностей від входів. Думав, що це момент еврики, але не знав, що це вже усталена структура.

— Тобі

2

Дійсно триває розслідування щодо цієї теми. Перша публікація з останнього маршу зазначила, що модульність була зроблена, хоча і не прямо, ще з певного часу тому, але певна підготовка продовжує бути монолітною. У цій роботі проаналізовано деякі основні питання з цього питання та порівнюються часи тренувань та виконання у модульних та сильно повторюваних нейронних мережах. Побачити:

Castillo-Bolado та ін. Модульність як засіб управління складністю в навчанні нейронних мереж

Деякі інші дуже орієнтовані на модульність, але залишаючись на монолітній підготовці (див . Дослідження Якова Андреа , спеціально " Навчання розуму" дуже пов'язане з вашим третім питанням). Десь між кінцем 2019 року та маршем наступного року результатів має бути більше (я випадково знаю).

Стосовно ваших двох останніх питань ми зараз починаємо бачити, що модульність є головним ключем до узагальнення. Дозвольте порекомендувати вам декілька робіт (їх можна знайти в архіві arxiv або google):

Стохастична адаптивна нейронна архітектура Пошук за ключовими словами (варіації архітектури для збалансування продуктивності та використання ресурсів).
Зробити архітектури нейронного програмування узагальненими за допомогою рекурсії (вони виконують завдання на підмодульність, і я вважаю, що це вперше гарантоване узагальнення в полі нейронних мереж).
Оволодіння грою Go з глибокими нейронними мережами та пошуком дерев (топологія мережі - це власне дерево пошуку, ви можете дізнатися більше про це, якщо шукати нейромережі графіків).

— Девід
джерело

1

Порівняльне порівняння систем, що складаються з окремо підготовлених мереж відносно одиночних глибших мереж, швидше за все, не виявить найкращого варіанту, що застосовується загалом. ¹ Ми можемо побачити в літературі збільшення кількості більших систем, де поєднуються кілька штучних мереж разом з іншими типами компонентів. Це варто очікувати. Модуляризація у міру того, як системи зростають складніше, а вимоги до підвищення продуктивності та можливостей є такими ж старими, як і індустріалізація.

Наша лабораторія працює з робототехнічним керуванням, термодинамічним приладом та аналізом даних, штучні мережі є компонентами цих великих системних контекстів. у нас немає жодного MLP або RNN, які самі по собі виконують будь-яку корисну функцію.

На противагу думкам про ієрархії десятиліть тому, топологічний підхід, який, здається, працює в більшості випадків, слід більш звичних взаємозв'язків системного модуля, які спостерігаються на електростанціях, автоматизованих заводах, повітроплаванні, інформаційних архітектурах підприємств та інших складних інженерних творах. З'єднання є потоковими, і якщо вони розроблені добре, функції нагляду є мінімальними. Потік відбувається між модулями, що включають протоколи зв'язку, і кожен модуль добре виконує свою функцію, інкапсулюючи нижній рівень складності та функціональні деталі. Здається, не одна мережа, яка наглядає за іншою, виявляється найбільш ефективною в практичній практиці, але баланс і симбіоз. Виявлення чіткого дизайну господаря-раба в людському мозку здається настільки ж слизьким.

Завдання полягає не у пошуку інформаційних шляхів, що складають топологію інформаційної системи. Інформаційний потік часто очевидний при аналізі проблем. Складність полягає у виявленні найкращих стратегій підготовки цих незалежних мереж. Залежності від тренувань є загальними і часто критичними, тоді як у тварин тренування відбувається in situ або взагалі немає. Ми розкриваємо умови, за яких такий спосіб навчання в наших системах практичний, і як цього досягти. Більшість наших досліджень за цими напрямками призначені для пошуку шляхів досягнення більш високої надійності та нижчого навантаження з точки зору годин дослідження для його отримання.

Вища функціональність не завжди приносить користь. Він часто забезпечує меншу надійність і споживає додаткові ресурси для розробки з невеликою віддачею. Знайдіть спосіб одружитися з автоматизацією вищого рівня, ощадливістю ресурсів та надійністю в одному процесі розробки, і ви можете виграти нагороду та почесну згадку в Інтернеті.

Паралельні системи, які мають однакову мету, є хорошою ідеєю, але не новою. В одній системі повітроплавання дев'ять паралельних систем мають одну і ту ж ціль, в групах по три. Кожна група використовує інший обчислювальний підхід. Якщо дві системи, що використовують один і той же підхід, забезпечують однаковий вихід, а третя відрізняється, використовується відповідний вихід, а різниця в третій повідомляється як несправність системи. Якщо два різних підходи дають подібні результати, а третій істотно відрізняється, використовується злиття двох подібних результатів, а третій повідомляється як випадок використання для подальшої розробки підходу, що не відповідає.

Поліпшена відмовка має відпускні витрати, ще вісім систем та пов'язані з ними обчислювальні ресурси та підключення плюс компаратори на хвості, але в системах, які є питанням життя та смерті, додаткові витрати оплачуються та надійність збільшується.

Динамічна топологічна адаптація пов'язана із надлишковими системами та толерантністю до відмов, але певним чином досить чіткою. У цій галузі розвитку наступна технологія - нейроморфні обчислення, які частково надихаються нейропластикою.

Останнє розрізнення, яке слід врахувати, - це топологія процесу, топологія даних та апаратна топологія. Ці три геометричні кадри можуть давати більшу ефективність разом, якщо їх вирівняти певними способами, які створюють більш прямі відображення між зв'язками між потоком, поданням та механікою. Однак вони є різними топологіями. Сенс узгодження може бути очевидним без глибокого заглиблення в ці поняття та деталі, які з’являються для конкретних цілей товару чи послуги.

Виноски

[1] Глибокі мережі, які навчаються як єдиний блок і функціонують без підключення до інших штучних мереж, не обов'язково є монолітними. Більшість практичних глибоких мереж мають неоднорідну послідовність шарів з точки зору їх активаційних функцій та часто їх типів клітин.

— Дуглас Дазееко
джерело