Яка різниця між подачею і повторюваними нейронними мережами?

58

Яка різниця між подачею і повторюваною нейронною мережею?

Навіщо ти використовувати одне над іншим?

Чи існують інші мережеві топології?

— Шейн
джерело

Тісно пов’язані: stats.stackexchange.com/questions/287276/…

— Ферді

57

ANN-сигнали, що передаються вперед, дозволяють сигналам рухатися лише в один бік: від вводу до виходу Відгуків (циклів) немає; тобто вихід будь-якого шару не впливає на цей самий шар. ANN-номери передачі, як правило, є прямими мережами, які асоціюють входи з виходами. Вони широко використовуються для розпізнавання візерунків. Цей тип організації також називають знизу вгору або згори вниз.

Мережа передачі каналів

Мережі зворотного зв'язку (або періодичні або інтерактивні) можуть мати сигнали, що рухаються в обох напрямках, вводячи петлі в мережу. Мережі зворотного зв'язку є потужними і можуть отримати надзвичайно складний характер. Обчислення, отримані з попереднього введення, подаються назад у мережу, що дає їм своєрідну пам'ять. Мережі зворотного зв'язку динамічні; їх "стан" постійно змінюється, поки вони не досягнуть точки рівноваги. Вони залишаються в точці рівноваги, поки вхід не зміниться і не потрібно знайти нову рівновагу.

зворотній зв'язок архітектури

Подані нейронні мережі ідеально підходять для моделювання взаємозв'язків між набором прогнозних або вхідних змінних та однією або кількома змінними відповіді та виведення. Іншими словами, вони підходять для будь-якої проблеми функціонального відображення, де ми хочемо знати, як ряд вхідних змінних впливає на вихідну змінну. Багатошарові нейромережі подачі, що також називаються багатошаровими персептронами (MLP), є найбільш широко вивченою та застосовуваною моделлю нейронної мережі на практиці.

Як приклад мережі зворотного зв'язку, я можу згадати мережу Хопфілда . Основне використання мережі Хопфілда - як асоціативна пам'ять. Асоціативна пам'ять - це пристрій, який приймає шаблон введення та генерує вихід у вигляді збереженого шаблону, який найбільш тісно пов'язаний із входом. Функція асоційованої пам'яті полягає в тому, щоб пригадати відповідний збережений візерунок, а потім створити чітку версію шаблону на виході. Мережі Хопфілда зазвичай використовуються для проблем з векторами двійкових візерунків, і шаблон введення може бути шумною версією одного із збережених шаблонів. У мережі Хопфілд збережені зразки кодуються як ваги мережі.

Кахонен самоорганізовується карти(SOM) являють собою інший тип нейронної мережі, який помітно відрізняється від подаючої багатошарової мережі. На відміну від тренувань у програмі MLP, що навчається, або навчання SOM часто називають без нагляду, оскільки немає відомих цільових результатів, пов'язаних із кожним вхідним шаблоном у SOM, і під час навчального процесу SOM обробляє вхідні шаблони та вчиться кластеризувати або сегментувати дані за допомогою регулювання ваг (що робить його важливою нейронною мережевою моделлю для зменшення розмірів та кластеризації даних). Двовимірна карта, як правило, створюється таким чином, що порядки взаємозв'язків між вхідними даними зберігаються. Кількість та склад кластерів можна візуально визначити на основі розподілу виходу, що генерується під час навчального процесу. Маючи лише вхідні змінні у навчальній вибірці,

(Діаграми представлені на веб-сайті Дани Врайтору C463 / B551 зі штучного інтелекту .)

— Джордж Донтас
джерело

2

Чи враховується мережа прямої передачі, яка ітераційно використовує свої виходи як входи, як мережа, що повторюється?

— naught101

1

Так, це дійсно так.

— байерж

2

Мій попередній коментар був неправильним. Частина цієї публікації, здавалося б, плагіатувала ця особа (окрім пари незначних змін у словах) без кредиту.

— Glen_b

1

Я намагаюся математично зрозуміти, чому RNN перевершують мережі прямої передачі. Чи є приклади, коли це дуже важко наблизити за поданням каналу ANN, але легко з RNN.

— pikachuchameleon

14

Те, що пише Джордж Донтас, є правильним, проте використання RNN сьогодні на практиці обмежується більш простим класом проблем: часовими рядами / послідовними завданнями.

У той час як з прямим зв'язком по мережі використовується , щоб дізнатися набори даних , як , де і вектори (наприклад , для зворотних мереж завжди буду послідовністю, наприклад . $(i, t)$ $i$ $t$ $i \in \mathcal{R}^n$ $i$ $i \in (\mathcal{R}^n)^*$

Показано, що RNN можуть представляти будь-яку вимірювану послідовність до відображення послідовностей Hammer.

Таким чином, сьогодні RNN використовуються для виконання всіх видів послідовних завдань: прогнозування часових рядів, маркування послідовностей, класифікація послідовностей тощо. Хороший огляд можна знайти на сторінці Шмідхубера на RNN .

— байерж
джерело

"Хоча мережі feedforward використовуються для вивчення наборів даних, таких як (i, t), де i і t є векторами (наприклад, i∈Rn, для повторюваних мереж я завжди буде послідовністю, наприклад, i∈ (Rn) ∗" Я знаю, це питання було запитав давно, але чи не заперечуєте ви пояснити, що це означає в умовах непростої людини? Мені потрібно обґрунтувати причину, коли я вирішив використовувати мережу передачі каналів через RNN для свого проекту, і я думаю, що це може бути причиною. Або ви можете зв’язати мене з джерелом, яке дозволить мені здійснити це обгрунтування? Після пошуку я не можу сам знайти його. Дякую, будь-яка відповідь дуже вдячна!

— Blue7,

Зараз ця відповідь наче застаріла. Хоча RNN природним чином надає дані послідовності, їх також можна використовувати для прогнозування статичних входів (таких як зображення чи іншим чином). Див.: Рекуррентна згорнута нейронна мережа для розпізнавання об'єктів та доказів того, що повторювані ланцюги є критично важливими для виконання вентральним потоком поведінки розпізнавання основних об'єктів

— Firebug

1

Що насправді цікаво задавати це питання?

Замість того, щоб говорити, RNN і FNN відрізняються своєю назвою. Тож вони різні. , Я думаю, що цікавіше, що стосується моделювання динамічної системи, чи сильно відрізняється RNN від FNN?

Фон

Була дискусія щодо моделювання динамічної системи між Рекурентною нейронною мережею та нейронною мережею Feedforward з додатковими функціями, як попередні затримки в часі (FNN-TD).

З моїх знань після прочитання цих робіт 90-х - 2010-х. Більшість літератури вважають, що ванільний RNN кращий, ніж FNN, оскільки RNN використовує динамічну пам'ять, тоді як FNN-TD - статична пам'ять.

Однак численних досліджень, які порівнюють ці два, не так багато. Один [1] на початку показав, що для моделювання динамічної системи FNN-TD демонструє порівнянні показники з ванільною RNN, коли вона без шуму, а працює трохи гірше, коли є шум. На моєму досвіді моделювання динамічних систем я часто бачу, що FNN-TD досить хороший.

Яка ключова відмінність у лікуванні ефектів пам'яті між RNN та FNN-TD?

На жаль, я ніде не бачу, і жодна публікація теоретично не показала різниці між цими двома. Це досить цікаво. Розглянемо простий випадок, використовуючи скалярну послідовність для прогнозування . Тож це завдання послідовності до скалярності. $X_n, X_{n-1},\ldots,X_{n-k}$ $X_{n+1}$

FNN-TD є найбільш загальним, всеосяжним способом лікування так званих ефектів пам'яті . Оскільки він жорстокий, він теоретично охоплює будь-який вид, будь-який вид, будь-який ефект пам’яті. Єдина нижня сторона полягає в тому, що вона просто приймає занадто багато параметрів на практиці.

Пам'ять у RNN - це не що інше, як представлена як загальна "згортка" попередньої інформації . Всі ми знаємо, що згортання між двома скалярними послідовностями взагалі не є оборотним процесом, і деконволюція найчастіше є поганою.

Моя гіпотеза «ступінь свободи» в цьому процесі згортки визначається числом прихованих елементів в РНН стан . І це важливо для деяких динамічних систем. Зауважимо, що "ступінь свободи" може бути розширена затримкою часу вбудовування станів [2], зберігаючи однакову кількість прихованих одиниць. $s$

Отже, RNN фактично стискає попередню інформацію про пам'ять із втратою, роблячи згортку, тоді як FNN-TD просто викриває їх у певному сенсі, не втрачаючи інформації пам'яті. Зауважте, що ви можете зменшити втрати інформації за згодом, збільшивши кількість прихованих одиниць або скориставшись більшими затримками часу, ніж ванільна RNN. У цьому сенсі RNN є більш гнучким, ніж FNN-TD. RNN не може домогтися втрати пам'яті, як FNN-TD, і може бути банально показати кількість параметрів в одному порядку.

Я знаю, що хтось може захотіти відзначити, що RNN несе ефект тривалий час, тоді як FNN-TD не може. Для цього я просто хочу зазначити, що для безперервної автономної динамічної системи від теорії вбудовування Takens це загальна властивість існування для FNN-TD з, здавалося б, короткою пам'яттю часу для досягнення тієї ж продуктивності, що і, здавалося б, тривалий час пам'ять в RNN. Це пояснює, чому RNN і FNN-TD мало відрізняються в прикладі безперервної динамічної системи на початку 90-х.

Зараз я згадаю про користь RNN. Для завдання автономної динамічної системи, використовуючи більше попередній термін, хоча фактично було б таким же, як використання FNN-TD з меншими попередніми термінами в теорії, чисельно було б корисно, щоб вона була більш надійною для шуму. Результат [1] відповідає цій думці.

Довідково

[1] Генчай, Рамазан і Тунг Лю. "Нелінійне моделювання та прогнозування з інформаційними та періодичними мережами." Physica D: Нелінійні явища 108.1-2 (1997): 119-134.

[2] Пан, Шаоу і Картік Дурайсамі. "Інформаційне відкриття моделей закриття." переддрук arXiv arXiv: 1803.09318 (2018).

— Штучний інтелект
джерело