Як працюють вузькі архітектури в нейронних мережах?


21

Ми визначаємо архітектуру вузького місця як тип, знайдений у статті ResNet, де [два шари конвеєра 3x3] замінені на [один 1x1 conv, один 3x3 conv та інший 1x1 conv шар].введіть тут опис зображення

Я розумію, що шари conv 1x1 використовуються як форма зменшення розмірів (і відновлення), що пояснюється в іншій публікації . Однак мені незрозуміло, чому ця структура настільки ефективна, як оригінальний макет.

Деякі хороші пояснення можуть включати: Яка довжина кроку використовується та на яких шарах? Які приклади вхідних та вихідних розмірів кожного модуля? Як зображені карти 56x56 на схемі вище? Чи позначає 64-d кількість фільтрів, чому це відрізняється від 256-d фільтрів? Скільки ваг або ФЛОП використовуються на кожному шарі?

Будь-яка дискусія дуже вдячна!


Я думаю, що це може допомогти узагальненням та запобіганням надмірного пристосування. Але це лише невиразний спогад.
Кріс

Відповіді:


5

Архітектура вузького місця використовується в дуже глибоких мережах внаслідок обчислень.

Щоб відповісти на ваші запитання:

  1. На наведеному зображенні зображення зображених карт 56x56 не представлені. Цей блок взято з ResNet з розміром входу 224x224. 56x56 - версія з введенням вхідного сигналу на деякому проміжному шарі.

  2. 64-д відноситься до кількості карт функцій (фільтрів). Архітектура вузького місця має 256-д просто тому, що вона призначена для набагато глибшої мережі, яка, можливо, сприймає зображення більш високої роздільної здатності як вхідні дані, а отже, вимагає більше карт функцій.

  3. Перегляньте цей малюнок для параметрів кожного шару вузького місця в ResNet 50.


1
Для майбутніх читачів я мушу зазначити, що я вважаю, що конвектори 1x1 мають крок = 1 і pad = 0, щоб зберегти (ШхВ) 56x56. Аналогічно, 3x3 конверів мають крок = 1 і pad = 1 для збереження розміру.
derekchen14

Ще я не розумію. Здається, вони мають однакову кількість параметрів, і в такому випадку я все ще не розумію призначення шару bootleneck.
користувач570593

-1

Я дійсно думаю, що другий пункт у відповіді Ньюштейна є оманливим.

64-dАбо 256-dслід звернутися до числа каналів в вхідному ознаці карти - не кількість введення функції карти.

Розглянемо блок "вузького місця" (справа від рисунка) у запитанні ОП як приклад:

  • 256-dозначає, що ми маємо єдину вхідну карту з розмірністю n x n x 256. На 1x1, 64рисунку означає 64 фільтри , кожен є 1x1і має 256канали ( 1x1x256).
  • Отже, тут ми бачимо, що згортка одного фільтра ( 1x1x256) з картою вхідних функцій ( n x n x 256) дає нам n x nвихід.
  • Тепер у нас є 64фільтри, тому, укладаючи виходи, розмір карти вивідних характеристик є n x n x 64.

Відредаговано:

  • @Michael Chernick: Гаразд, це була б часткова відповідь, оскільки я намагався виправити прийняту відповідь. Чи можете ви витратити час, щоб переглянути мою часткову відповідь і повідомити, чи я правильно розумію?

Незалежно від репутації, ви не повинні використовувати відповіді для коментарів.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.