Вибір розміру фільтра, кроку тощо у CNN?

12

Я дивився лекції CS231N зі Стенфорда і намагаюся обернути голову навколо деяких питань архітектури CNN. Що я намагаюся зрозуміти, чи є якісь загальні вказівки щодо вибору розміру фільтра згортки та такі речі, як ходу, чи це більше мистецтво, ніж наука?

Як я розумію, об'єднання існує, головним чином, для того, щоб викликати певну форму інваріантності перекладу в модель. З іншого боку, я не маю доброї інтуїції щодо того, як підбирається розмір кроку. Чи є якісь інші вказівки до цього, крім спроби стиснути поточний розмір шару або намагатися досягти більшого сприйнятливого поля до нейрона? Хтось знає якісь хороші папери чи подібні, що обговорюють це?

neural-networks deep-learning conv-neural-network

— дст
джерело

9

Як вступний текст до всіх названих вами питань, я б рекомендував книгу глибокого вивчення . Він забезпечує широкий огляд поля. Це пояснює роль, яку відіграє кожен із цих параметрів.

На мій погляд, дуже корисно почитати про деякі найпопулярніші архітектури (відновлення, створення, alex-net) та витягнути ключові ідеї, що ведуть до дизайнерських рішень. Прочитавши вищезгадану книгу.

У програмі лекцій, на які ви посилаєтесь, дуже докладно пояснено, як шар згортки додає велику кількість параметрів (ваги, зміщення) та нейронів. Цей шар, колись тренується, здатний витягувати із зображення смислові візерунки. Для нижчих шарів ці фільтри виглядають як крайові витяжки. Для вищих шарів ці примітивні форми поєднуються для опису більш складних форм. Ці фільтри передбачають велику кількість параметрів і велике питання дизайну глибоких мереж у тому, як можна описувати складні форми і все-таки бути в змозі зменшити кількість параметрів.

Оскільки сусідні пікселі сильно співвідносяться (особливо в найнижчих шарах), має сенс зменшити розмір виводу шляхом підсистеми (об'єднання) реакції фільтра. Чим далі два пікселі розташовані один від одного, тим менше корелює. Тому великий крок у шарі об'єднання призводить до великих втрат інформації. Неохайно кажучи. Швидкість 2 та розмір ядра 2х2 для шару об'єднання - це звичайний вибір.

Більш складним підходом є мережа Inception ( Поглиблення з згортками ), де ідея полягає в збільшенні розрідженості, але все ще в змозі досягти більш високої точності, торгуючи кількістю параметрів у згортковому шарі проти модуля початку для більш глибоких мереж.

Приємний документ, який містить підказки щодо сучасних архітектур та ролі деяких дизайнерських розмірів у структурованому, систематизованому вигляді - це SqueezeNet: точність на рівні AlexNet з на 50 разів меншими параметрами та <0,5 Мб розміром моделі . Він будується на ідеях, представлених у згаданих раніше моделях.

— jpmuc
джерело

1

Якщо ви розглядаєте можливість кращого навчання за час навчання, я хочу запропонувати ці розміри ядра та кроку;

Щодо розміру фільтра, я думаю, це залежить від ваших характеристик зображення. Наприклад, велика кількість пікселів необхідна для розпізнавання об’єкта в мережі, ви можете використовувати більші фільтри, з іншого боку, якщо об'єкти дещо невеликі або локальні, ви можете застосувати менші фільтри щодо розміру вхідного зображення.

Що стосується розміру кроку, для мене малий крок буде кращим для зйомки тонших деталей вхідного зображення.

Для мене користь об’єднання полягає в тому, що він витягує найгостріші риси зображення. Загалом, найгостріші риси виглядають як найкраще зображення зображення нижнього рівня.

— Хмара Чо
джерело