Що таке інтуїтивне пояснення мереж Echo State?

17

Я новачок у періодичних нейронних мережах (RNN) і все ще вивчаю ці концепції. На абстрактному рівні я розумію, що мережа Echo State (ESN) здатна (повторно) виробляти послідовність входів, тобто сигнал, навіть після видалення входу. Однак, мені здалося, що стаття про Академію занадто складна, щоб зрозуміти та зрозуміти її повністю.

Може хтось, будь ласка, пояснить, як навчання працює математично в найпростішій можливій формі.

neural-networks

— tejaskhot
джерело

17

Мережа державних відлунь є примірником більш загальної концепції обчислень водосховищ . Основна ідея ESN полягає в тому, щоб отримати переваги RNN (обробити послідовність входів, які залежать один від одного, тобто залежність від часу, як сигнал), але без проблем навчання традиційного RNN, як проблема зниклого градієнта .

ESN досягають цього, маючи відносно великий резервуар рідко з'єднаних нейронів, використовуючи функцію передачі сигмоїди (щодо розміру входу, щось на зразок 100-1000 одиниць). З’єднання у водоймі призначаються одноразово і є абсолютно випадковими; ваги водойми не тренуються. Вхідні нейрони підключаються до резервуару і подають активізацію входу в резервуар - їм теж призначаються нетреновані випадкові ваги. Єдиними вагами, які тренуються, є вихідні ваги, які з'єднують резервуар з вихідними нейронами.

Під час тренінгу вхідні дані подаватимуться до резервуару, а вихідний викладач застосовуватиметься до вихідних підрозділів. Стани водойми захоплюються з часом і зберігаються. Після того, як будуть застосовані всі навчальні входи, може бути використане просте застосування лінійної регресії між захопленими станами резервуара та цільовими виходами. Ці вихідні ваги потім можуть бути включені до існуючої мережі та використані для нових входів.

Ідея полягає в тому, що рідкісні випадкові з'єднання в резервуарі дозволяють попереднім станам "відлунюватися" навіть після того, як вони пройшли, так що якщо мережа отримає новий вхід, подібний до чогось, на якому вона навчилася, динаміка в резервуарі почне слідувати траєкторії активації, що відповідає входу, і таким чином може подати відповідність сигналу тому, на чому він тренувався, і якщо він буде добре навчений, він зможе узагальнити те, що вже бачив, слідуючи траєкторіям активації, які мали би сенс заданий вхідний сигнал, що веде водойму.

Перевага такого підходу полягає в неймовірно простої тренувальній процедурі, оскільки більшість ваг призначаються лише один раз і навмання. Однак вони здатні фіксувати складну динаміку з часом і здатні моделювати властивості динамічних систем. На сьогодні найбільш корисні документи, які я знайшов у ESN:

Навчальний посібник з навчання RNN Герберта Йегера (куратор сторінки "Академія" в ESNs)
Практичний посібник із застосування мереж Echo State від Мантаса Лукошевічуса

Вони обоє мають легкі для розуміння пояснення, що йдуть разом з формалізмом та чудовими порадами щодо створення реалізації із вказівками щодо вибору відповідних значень параметрів.

ОНОВЛЕННЯ: У книзі « Глибоке навчання» від Goodfellow, Bengio та Courville є дещо детальніша, але все ж приємна дискусія на високому рівні з мережами Echo State. У розділі 10.7 обговорюється зникаюча (і вибухає) градієнтна проблема та труднощі вивчення довготривалих залежностей. Розділ 10.8 стосується мереж Echo State. Він конкретно розглядає питання про те, чому важливо вибрати вагу резервуарів, які мають відповідне значення спектрального радіусу, - це працює разом з нелінійними блоками активації, щоб заохотити стабільність, продовжуючи поширювати інформацію через час.

— adamconkey
джерело

1

Навчання в ESN не є основним вимушеним пристосовувати ваги, тим більше вихідний рівень дізнається, який вихід виробляти для поточного стану мережі. Внутрішній стан заснований на динаміці мережі і називається динамічним станом пласта. Щоб зрозуміти, як формуються стани водосховища, нам потрібно переглянути топологію ЕСН.

Вхідний блок (и) підключені до нейронів у внутрішніх одиницях (резервуарних одиницях), ваги випадково ініціалізуються. Резервуари є випадковим і рідко пов'язаними, а також мають випадкові ваги. Вихідний блок також з'єднаний з усіма резервуарними агрегатами, таким чином приймає стан резервуара і виробляє відповідний вихід.

$t$ $t$

Перш ніж ми зможемо пояснити, як тренінг працює докладно, ми повинні пояснити та визначити деякі речі:

$T$ $t$ $W_{fb}$ . На малюнку 1 ці краї зображені пунктирними стрілками.

Змінні дефінітони:

$r$ = кількість об'єднань пласта,
$o$ = кількість вихідних одиниць,
$t$ = кількість часових кроків,
$o$ = кількість вихідних одиниць.
$T$ $t$ $o$ ), яка містить бажаний вихід для кожного кроку часу.

Нарешті, як проходить тренінг детально працює ?

$t$ $M$ $t$ $r$ ) пластові стани.
Визначте матрицю вихідної ваги $W_{out}$ який містить кінцеві ваги на виході. Це можна обчислити за допомогою будь-якої регресійної техніки, наприклад, за допомогою псевдоінверси. Це означає, подивіться на стани резервуарів і знайдіть функцію для відображення їх, помножених на ваги виходу на вихід. Математично: приблизний $M \bullet W_{out} = T -> W_{out} = M \bullet T^{-1}$

Оскільки навчання відбувається дуже швидко, ми можемо випробувати багато мережевих топологій, щоб отримати ту, яка добре підходить.

Для вимірювання продуктивності ESN:

Запустіть мережу Echo State далі, не змушуючи викладачів (власний вихід подається назад у динамічний резервуар ESN через $W_{fb}$ ).
Запишіть продуктивність, наприклад помилки в квадраті $\left|\left|M \bullet W_{out} – T\right|\right|^2$

Спектральний радіус та ESN

Деякі розумні люди довели, що властивість Echo State ESN може бути надана лише у тому випадку, якщо Spec-tralрадіус матриці ваги резервуара менший або дорівнює $1$ . Властивість Echo State означає, що система забуває свої входи через обмежений час. Ця властивість необхідна для того, щоб ESN не розгортався в активності та мав змогу вчитися.

— маніяк
джерело