Мережа державних відлунь є примірником більш загальної концепції обчислень водосховищ . Основна ідея ESN полягає в тому, щоб отримати переваги RNN (обробити послідовність входів, які залежать один від одного, тобто залежність від часу, як сигнал), але без проблем навчання традиційного RNN, як проблема зниклого градієнта .
ESN досягають цього, маючи відносно великий резервуар рідко з'єднаних нейронів, використовуючи функцію передачі сигмоїди (щодо розміру входу, щось на зразок 100-1000 одиниць). З’єднання у водоймі призначаються одноразово і є абсолютно випадковими; ваги водойми не тренуються. Вхідні нейрони підключаються до резервуару і подають активізацію входу в резервуар - їм теж призначаються нетреновані випадкові ваги. Єдиними вагами, які тренуються, є вихідні ваги, які з'єднують резервуар з вихідними нейронами.
Під час тренінгу вхідні дані подаватимуться до резервуару, а вихідний викладач застосовуватиметься до вихідних підрозділів. Стани водойми захоплюються з часом і зберігаються. Після того, як будуть застосовані всі навчальні входи, може бути використане просте застосування лінійної регресії між захопленими станами резервуара та цільовими виходами. Ці вихідні ваги потім можуть бути включені до існуючої мережі та використані для нових входів.
Ідея полягає в тому, що рідкісні випадкові з'єднання в резервуарі дозволяють попереднім станам "відлунюватися" навіть після того, як вони пройшли, так що якщо мережа отримає новий вхід, подібний до чогось, на якому вона навчилася, динаміка в резервуарі почне слідувати траєкторії активації, що відповідає входу, і таким чином може подати відповідність сигналу тому, на чому він тренувався, і якщо він буде добре навчений, він зможе узагальнити те, що вже бачив, слідуючи траєкторіям активації, які мали би сенс заданий вхідний сигнал, що веде водойму.
Перевага такого підходу полягає в неймовірно простої тренувальній процедурі, оскільки більшість ваг призначаються лише один раз і навмання. Однак вони здатні фіксувати складну динаміку з часом і здатні моделювати властивості динамічних систем. На сьогодні найбільш корисні документи, які я знайшов у ESN:
Вони обоє мають легкі для розуміння пояснення, що йдуть разом з формалізмом та чудовими порадами щодо створення реалізації із вказівками щодо вибору відповідних значень параметрів.
ОНОВЛЕННЯ: У книзі « Глибоке навчання» від Goodfellow, Bengio та Courville є дещо детальніша, але все ж приємна дискусія на високому рівні з мережами Echo State. У розділі 10.7 обговорюється зникаюча (і вибухає) градієнтна проблема та труднощі вивчення довготривалих залежностей. Розділ 10.8 стосується мереж Echo State. Він конкретно розглядає питання про те, чому важливо вибрати вагу резервуарів, які мають відповідне значення спектрального радіусу, - це працює разом з нелінійними блоками активації, щоб заохотити стабільність, продовжуючи поширювати інформацію через час.