Динамічно коригування архітектури NN: винайдіть непотрібне?


9

Я починаю свою докторську подорож, і кінцевою метою, яку я поставив перед собою, є розробка АНН, яка б моніторила середовище, в якому вони працюють, і динамічно підлаштовувала б свою архітектуру до існуючої проблеми. Очевидним наслідком є ​​тимчасовість даних: якщо набір даних не є безперервним і не змінюється з часом, навіщо взагалі коригувати?

Велике питання: з недавнім підйомом глибокого навчання, це все ще актуальна тема? Чи мають FFNN шанс знайти собі нішу в проблемах дрейфу концепцій?

Я боюся перевантажувати нитку занадто великою кількістю питань, але це не зовсім поза темою: я знаю RNN, але маю обмежений (нормально, жоден чи чисто теоретичний) досвід роботи з ними; Я вважаю, що динамічна адаптація архітектури повинна бути актуальною темою в контексті RNN. Питання в тому, чи вже на нього відповіли, і я буду винаходити колесо?

PS Перекладено на MetaOptimize


Коли ви говорите "налаштувати їх архітектуру", ви маєте на увазі параметри (ваги, зміщення) або оновлення фактичної структури мережі (приховані вузли, функція активації, підключення тощо)? Крім того, у багатьох програмах для глибокого навчання кінцевим результатом є нейронна мережа передачі вперед, лише одна з вагами, ініціалізованими деяким непідконтрольним процесом.
альт

@alto, я маю на увазі фактичну структуру NN - кількість прихованих одиниць та (можливо) шарів - я впевнений, що її можна реалізувати на різних рівнях складності. Я відчуваю, що мені доведеться почати читати з глибокого навчання, якщо я взагалі кудись потраплю.
anna-earwen

@ anna-earwen цікава тема доктора філософії, як це відбувається, будь-які публікації ще?
Дікран Марсупіал

1
@Dikran Marsupial, я незабаром вирушаю до IJCNN 2014, щоб поговорити про те, як і чому PSO не навчає високомірних мереж. Тож відповідь "так" і знайте: я взяв великий об'їзд від початкового вектора досліджень, і мені цікаво, чи все-таки повернусь до регульованих архітектур. Тільки час і емпіричні результати покажуть!
anna-earwen

Я розберуся на це в роботі - розуміння того, чому все не працює, - це те, що науці потрібно більше (і ґрунтовні емпіричні дослідження).
Дікран Марсупіал

Відповіді:


6

Каскадно-кореляційні нейронні мережі коригують свою структуру, додаючи приховані вузли під час тренувального процесу, так що це може бути місце для початку. Більшість інших робіт, які я бачив, автоматично регулює кількість шарів, кількість прихованих вузлів тощо нейронної мережі, використовуючи еволюційні алгоритми.

На жаль, ця робота є поза моєю сферою, тому я не можу рекомендувати будь-які конкретні документи чи посилання, які допоможуть вам розпочати роботу. Я можу вам сказати, що я не бачив жодної роботи, яка намагалася б одночасно оптимізувати мережеву структуру та параметри в межах спільноти глибокого навчання. Насправді більшість архітектур глибокого навчання ґрунтуються на жадібному вивченні одного шару одночасно, завдяки чому навіть онлайн-вивчення глибоких нейронних мереж є досить недоторканою областю (помітним винятком є ​​робота Мартенса та ін. Про вільну оптимізацію Гессі).


Велике спасибі, ви вже дали мені достатньо інформації, щоб почати копати золото. :)
anna-earwen

2

Ще одна причина розглянути нові підходи до конструктивних нейронних мереж (наприклад, алгоритм CC @ alto згадується) - у додатках поза статистикою . Зокрема, у теоретичній нейронауці та когнітивної науці конструктивні нейронні мережі часто використовуються через метафоричну схожість розвитку та нейрогенезу. Для прикладу важкого використання для цього каскадно-кореляційного ознайомлення дивіться публікації Томаса Р. Шульца . На жаль, каскадно-кореляційний підхід є біологічно нереальним, і якщо у вас є згин неврології, варто розглянути, як нові НН з регульованою архітектурою можуть бути використані як кращі моделі розвитку та / або нейрогенезу.


1
Спасибі, Артеме! Насправді я більше чистий комп'ютер, ніж усе інше, тому мої знання про нейро- та конгенітивну науку менше, ніж дефіцитні. Хоча це звучить захоплююче, і оскільки всі дороги все ще відкриті, я теж міг би заглиблюватися в це - принаймні в якійсь мірі. На даний момент мене особливо цікавлять програми, спрямовані на проблеми з інженерною реалізацією та аналізом даних, які можуть працювати для порівняльного аналізу.
anna-earwen
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.