Вибір розміру фільтра, кроку тощо у CNN?


12

Я дивився лекції CS231N зі Стенфорда і намагаюся обернути голову навколо деяких питань архітектури CNN. Що я намагаюся зрозуміти, чи є якісь загальні вказівки щодо вибору розміру фільтра згортки та такі речі, як ходу, чи це більше мистецтво, ніж наука?

Як я розумію, об'єднання існує, головним чином, для того, щоб викликати певну форму інваріантності перекладу в модель. З іншого боку, я не маю доброї інтуїції щодо того, як підбирається розмір кроку. Чи є якісь інші вказівки до цього, крім спроби стиснути поточний розмір шару або намагатися досягти більшого сприйнятливого поля до нейрона? Хтось знає якісь хороші папери чи подібні, що обговорюють це?

Відповіді:


9

Як вступний текст до всіх названих вами питань, я б рекомендував книгу глибокого вивчення . Він забезпечує широкий огляд поля. Це пояснює роль, яку відіграє кожен із цих параметрів.

На мій погляд, дуже корисно почитати про деякі найпопулярніші архітектури (відновлення, створення, alex-net) та витягнути ключові ідеї, що ведуть до дизайнерських рішень. Прочитавши вищезгадану книгу.

У програмі лекцій, на які ви посилаєтесь, дуже докладно пояснено, як шар згортки додає велику кількість параметрів (ваги, зміщення) та нейронів. Цей шар, колись тренується, здатний витягувати із зображення смислові візерунки. Для нижчих шарів ці фільтри виглядають як крайові витяжки. Для вищих шарів ці примітивні форми поєднуються для опису більш складних форм. Ці фільтри передбачають велику кількість параметрів і велике питання дизайну глибоких мереж у тому, як можна описувати складні форми і все-таки бути в змозі зменшити кількість параметрів.

Оскільки сусідні пікселі сильно співвідносяться (особливо в найнижчих шарах), має сенс зменшити розмір виводу шляхом підсистеми (об'єднання) реакції фільтра. Чим далі два пікселі розташовані один від одного, тим менше корелює. Тому великий крок у шарі об'єднання призводить до великих втрат інформації. Неохайно кажучи. Швидкість 2 та розмір ядра 2х2 для шару об'єднання - це звичайний вибір.

Більш складним підходом є мережа Inception ( Поглиблення з згортками ), де ідея полягає в збільшенні розрідженості, але все ще в змозі досягти більш високої точності, торгуючи кількістю параметрів у згортковому шарі проти модуля початку для більш глибоких мереж.

Приємний документ, який містить підказки щодо сучасних архітектур та ролі деяких дизайнерських розмірів у структурованому, систематизованому вигляді - це SqueezeNet: точність на рівні AlexNet з на 50 разів меншими параметрами та <0,5 Мб розміром моделі . Він будується на ідеях, представлених у згаданих раніше моделях.


1
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.