Динамічно коригування архітектури NN: винайдіть непотрібне?

Я починаю свою докторську подорож, і кінцевою метою, яку я поставив перед собою, є розробка АНН, яка б моніторила середовище, в якому вони працюють, і динамічно підлаштовувала б свою архітектуру до існуючої проблеми. Очевидним наслідком є тимчасовість даних: якщо набір даних не є безперервним і не змінюється з часом, навіщо взагалі коригувати?

Велике питання: з недавнім підйомом глибокого навчання, це все ще актуальна тема? Чи мають FFNN шанс знайти собі нішу в проблемах дрейфу концепцій?

Я боюся перевантажувати нитку занадто великою кількістю питань, але це не зовсім поза темою: я знаю RNN, але маю обмежений (нормально, жоден чи чисто теоретичний) досвід роботи з ними; Я вважаю, що динамічна адаптація архітектури повинна бути актуальною темою в контексті RNN. Питання в тому, чи вже на нього відповіли, і я буду винаходити колесо?

PS Перекладено на MetaOptimize

machine-learning neural-networks

— anna-earwen
джерело

Коли ви говорите "налаштувати їх архітектуру", ви маєте на увазі параметри (ваги, зміщення) або оновлення фактичної структури мережі (приховані вузли, функція активації, підключення тощо)? Крім того, у багатьох програмах для глибокого навчання кінцевим результатом є нейронна мережа передачі вперед, лише одна з вагами, ініціалізованими деяким непідконтрольним процесом.

— альт

@alto, я маю на увазі фактичну структуру NN - кількість прихованих одиниць та (можливо) шарів - я впевнений, що її можна реалізувати на різних рівнях складності. Я відчуваю, що мені доведеться почати читати з глибокого навчання, якщо я взагалі кудись потраплю.

— anna-earwen

@ anna-earwen цікава тема доктора філософії, як це відбувається, будь-які публікації ще?

— Дікран Марсупіал

@Dikran Marsupial, я незабаром вирушаю до IJCNN 2014, щоб поговорити про те, як і чому PSO не навчає високомірних мереж. Тож відповідь "так" і знайте: я взяв великий об'їзд від початкового вектора досліджень, і мені цікаво, чи все-таки повернусь до регульованих архітектур. Тільки час і емпіричні результати покажуть!

— anna-earwen

Я розберуся на це в роботі - розуміння того, чому все не працює, - це те, що науці потрібно більше (і ґрунтовні емпіричні дослідження).

— Дікран Марсупіал

Відповіді:

Каскадно-кореляційні нейронні мережі коригують свою структуру, додаючи приховані вузли під час тренувального процесу, так що це може бути місце для початку. Більшість інших робіт, які я бачив, автоматично регулює кількість шарів, кількість прихованих вузлів тощо нейронної мережі, використовуючи еволюційні алгоритми.

На жаль, ця робота є поза моєю сферою, тому я не можу рекомендувати будь-які конкретні документи чи посилання, які допоможуть вам розпочати роботу. Я можу вам сказати, що я не бачив жодної роботи, яка намагалася б одночасно оптимізувати мережеву структуру та параметри в межах спільноти глибокого навчання. Насправді більшість архітектур глибокого навчання ґрунтуються на жадібному вивченні одного шару одночасно, завдяки чому навіть онлайн-вивчення глибоких нейронних мереж є досить недоторканою областю (помітним винятком є робота Мартенса та ін. Про вільну оптимізацію Гессі).

— альт
джерело

Велике спасибі, ви вже дали мені достатньо інформації, щоб почати копати золото. :)

— anna-earwen

Ще одна причина розглянути нові підходи до конструктивних нейронних мереж (наприклад, алгоритм CC @ alto згадується) - у додатках поза статистикою . Зокрема, у теоретичній нейронауці та когнітивної науці конструктивні нейронні мережі часто використовуються через метафоричну схожість розвитку та нейрогенезу. Для прикладу важкого використання для цього каскадно-кореляційного ознайомлення дивіться публікації Томаса Р. Шульца . На жаль, каскадно-кореляційний підхід є біологічно нереальним, і якщо у вас є згин неврології, варто розглянути, як нові НН з регульованою архітектурою можуть бути використані як кращі моделі розвитку та / або нейрогенезу.

— Артем Казнатчеєв
джерело

Спасибі, Артеме! Насправді я більше чистий комп'ютер, ніж усе інше, тому мої знання про нейро- та конгенітивну науку менше, ніж дефіцитні. Хоча це звучить захоплююче, і оскільки всі дороги все ще відкриті, я теж міг би заглиблюватися в це - принаймні в якійсь мірі. На даний момент мене особливо цікавлять програми, спрямовані на проблеми з інженерною реалізацією та аналізом даних, які можуть працювати для порівняльного аналізу.

— anna-earwen