CNN навчиться розпізнавати візерунки в просторі. Так, як ви кажете, CNN навчиться розпізнавати компоненти зображення (наприклад, лінії, криві тощо), а потім навчиться поєднувати ці компоненти для розпізнавання більших структур (наприклад, обличчя, об'єкти тощо).
Можна сказати, дуже загально, що RNN буде аналогічно вчитися розпізнавати шаблони протягом часу. Таким чином, RNN, який навчається перекладати текст, може дізнатися, що "собаку" слід перекладати по-різному, якщо їй передує слово "гаряче".
Однак механізм, за допомогою якого два види NN представляють ці структури, є різним. Що стосується CNN, ви шукаєте однакові візерунки на всіх різних підполях зображення. У випадку з RNN ви (у найпростішому випадку) подаєте приховані шари з попереднього кроку як додатковий вхід до наступного кроку. У той час як RNN накопичує пам'ять у цьому процесі, він не шукає однакових моделей протягом різних відрізків часу таким же чином, як CNN шукає однакові візерунки в різних регіонах простору.
Я також повинен зазначити, що коли я кажу тут "час" і "простір", це не слід сприймати занадто буквально. Наприклад, ви можете запустити RNN на одному зображенні для підпису зображення, і значенням "часу" було б просто порядок, в якому обробляються різні частини зображення. Таким чином, спочатку оброблені об'єкти повідомлять про заголовки пізніше оброблених об'єктів.