Що таке 1D згортковий шар у глибокому навчанні?


13

Я добре розумію роль та механізм звивистих шарів у програмі Deep Learning для обробки зображень у разі двовимірної чи тривимірної реалізації - вони "просто" намагаються вловлювати 2D-шаблони у зображеннях (у 3-х каналах у випадку 3D).

Але нещодавно я наткнувся на 1D згорткові шари в контексті обробки природних мов, що є для мене своєрідним сюрпризом, тому що в моєму розумінні 2D згортка особливо використовується для лову 2D-шаблонів, які неможливо розкрити в 1D (векторній) формі пікселів зображення У чому полягає логіка 1D згортки?

Відповіді:


16

Коротше кажучи, немає нічого особливого в кількості вимірів для згортки. Будь-яка розмірність згортки може бути розглянута, якби вона відповідала проблемі.

Кількість розмірів є властивістю вирішуваної проблеми. Наприклад, 1D для аудіосигналів, 2D для зображень, 3D для фільмів. . .

Коротко ігноруючи кількість розмірів, наступні можна вважати сильними складових конвертної нейронної мережі (CNN) порівняно з повністю пов'язаними моделями при роботі з певними типами даних:

  1. Використання загальних ваг для кожного місця, що обробляє процеси згортання, істотно зменшує кількість параметрів, які потрібно вивчити, порівняно з тими ж даними, що обробляються через повністю підключену мережу.

  2. Спільні ваги - це форма регуляризації.

  3. Структура згорткової моделі робить вагомі припущення щодо місцевих зв’язків у даних, які, якщо це правда, добре підходять до проблеми.

    3.1 Місцеві зразки забезпечують хороші прогнозні дані (та / або можуть бути корисно поєднані в більш складні прогнозні моделі у вищих шарах)

    3.2 Типи візерунків, знайдених у даних, можна знайти в декількох місцях. Пошук одного і того ж шаблону в іншому наборі точок даних є доцільним.

Ці властивості CNN не залежать від кількості вимірів. Одновимірні CNN працюють з візерунками в одному вимірі і, як правило, корисні при аналізі сигналів за сигналами фіксованої довжини. Наприклад, вони добре працюють для аналізу звукових сигналів. Також для певної обробки природних мов, хоча повторювані нейронні мережі, що дозволяють мати різну довжину послідовностей, можуть бути краще підходять до них, особливо такі, які мають розташування воріт пам'яті, такі як LSTM або GRU. Тим не менш, CNN може бути простішим в управлінні, і ви можете просто прокладати вхід для фіксованої довжини.


2D лише для зображень у масштабах сірого? Що відбувається, коли ви вводите RGB?
Мохаммед Атар

1
@MohammadAthar: RGB представлений у вигляді каналів (або функціональних карт ) окремої 2D інформації, і зазвичай вважається 2D також при описі шарів CNN. Якщо ви використовували TensorFlow або Keras, ви б обов'язково використовували визначення шару Conv2D для обробки кольорових зображень. Однак реалізація часто має 3D та 4D структури внутрішньо для зберігання ваг. . . і 2D згортання в декількох каналах фактично є окремим випадком математичної конверсії 3D (де розміри вводу та ядра повинні відповідати останньому шару). Тож це конвенція про найменування якнайбільше.
Ніл Слейтер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.