Як вступний текст до всіх названих вами питань, я б рекомендував книгу глибокого вивчення . Він забезпечує широкий огляд поля. Це пояснює роль, яку відіграє кожен із цих параметрів.
На мій погляд, дуже корисно почитати про деякі найпопулярніші архітектури (відновлення, створення, alex-net) та витягнути ключові ідеї, що ведуть до дизайнерських рішень. Прочитавши вищезгадану книгу.
У програмі лекцій, на які ви посилаєтесь, дуже докладно пояснено, як шар згортки додає велику кількість параметрів (ваги, зміщення) та нейронів. Цей шар, колись тренується, здатний витягувати із зображення смислові візерунки. Для нижчих шарів ці фільтри виглядають як крайові витяжки. Для вищих шарів ці примітивні форми поєднуються для опису більш складних форм. Ці фільтри передбачають велику кількість параметрів і велике питання дизайну глибоких мереж у тому, як можна описувати складні форми і все-таки бути в змозі зменшити кількість параметрів.
Оскільки сусідні пікселі сильно співвідносяться (особливо в найнижчих шарах), має сенс зменшити розмір виводу шляхом підсистеми (об'єднання) реакції фільтра. Чим далі два пікселі розташовані один від одного, тим менше корелює. Тому великий крок у шарі об'єднання призводить до великих втрат інформації. Неохайно кажучи. Швидкість 2 та розмір ядра 2х2 для шару об'єднання - це звичайний вибір.
Більш складним підходом є мережа Inception ( Поглиблення з згортками ), де ідея полягає в збільшенні розрідженості, але все ще в змозі досягти більш високої точності, торгуючи кількістю параметрів у згортковому шарі проти модуля початку для більш глибоких мереж.
Приємний документ, який містить підказки щодо сучасних архітектур та ролі деяких дизайнерських розмірів у структурованому, систематизованому вигляді - це SqueezeNet: точність на рівні AlexNet з на 50 разів меншими параметрами та <0,5 Мб розміром моделі . Він будується на ідеях, представлених у згаданих раніше моделях.