Правила вибору гіперпараметрів конвертних нейронних мереж


22

Чи є якісь хороші документи, які висвітлюють деякі методичні способи вибору розмірів для фільтрів, об'єднання одиниць та визначення кількості згорткових шарів?


1
Я відредагував вашу назву. Краще використовувати повні назви, а не абревіатури, оскільки в багатьох випадках короткі назви неоднозначні.
Тім

Відповіді:


11

З певною мірою так, нещодавно дослідниками Google вийшла робота про те, як вибрати хороші архітектури Inception. Початкові мережі досягають дуже високої продуктивності за обмеженим бюджетом параметрів, тому це найкраще місце для початку, як будь-яке, і це нещодавно. Ось посилання: Переосмислення архітектури початків для комп'ютерного зору .

Вони не пропонують жодних жорстких кількісних правил, а скоріше настанови, які вони використовували, і, на їхню думку, допомогли їм досягти хороших результатів на останніх змаганнях ImageNet.

Наприклад, деякі з принципів, які вони обговорюють:

  • Використовуйте стеки менших усмоктувальних шарів сприйнятливого поля замість того, щоб використовувати одинарні великі конвелюючі шари сприйнятливого поля, тобто 2 стеки шарів 3x3 conv проти одного шару 7x7 conv. Ця ідея не нова, вона також обговорювалася у « Поверненні диявола» у деталях: «Поглиблення глибоко в конволюційні мережі» командою Oxford VGG. Це мотивовано потребою в ефективності параметрів. Це також має подвійний ефект більшої здатності до представництва, оскільки ми вводимо більше нелінійності з більшою кількістю шарів.

  • Щось я не бачив у літературі, про яку згадувала ця стаття, - це розподіл звивистих шарів на глибокі шари. Отже, замість того, щоб мати один шар 7x7 conv, у нас був би шар conv 1x7, а потім 7x1 conv. Додає більше глибини, я вважаю, що також параметр ефективний.

  • Збалансуйте глибину та ширину вашої мережі. Використовуйте зображення високих розмірів. Це один із принципів, що лежать в основі їхніх початкових модулів, які об'єднують кілька шарів співуліну разом. Тож навіть якщо у вас невеликий просторовий розмір у вашій мережі обертання, за допомогою модулів Inception ми можемо використовувати представлення високого розміру за допомогою багатомасштабного згорткового конкатенації: 1x1, 3x3, 3x3-3x3, max пул все разом. Ці початкові модулі мають "ширину", оскільки їх можна інтерпретувати як виконання декількох операцій паралельно. Вони йдуть ще далі з новими модулями Inception, які мають факторні розміри згортки, 1x3, 3x1 тощо.

  • Для зменшення розмірності використовуйте 1x1 шари conv (мережа в стилі мережі). Вони використовують безліч методів зменшення розмірності для досягнення ефективності параметрів. Вони вважають, що це ефективно, оскільки суміжні карти особливостей мають сильно корельовані результати. Що має сенс, оскільки, як відомо, природні зображення демонструють деякі локальні статистичні властивості, що відповідають цьому. Таким чином, зменшення розмірності через 1x1 шари NIN не надає згубного впливу на представницьку силу.

У статті є більше. Я думаю, що це стаття, яка може дати деяке розуміння того, про що ви питаєте. Вони говорять про деякі найважливіші концепції архітектурного дизайну з конвеєрною сіткою.


2

Я не стикався з жодною літературою щодо вибору цих гіпер-параметрів як функції специфікації проблеми. Але, наскільки я розумію, більшість застосовують байєсівські методи оптимізації, щоб домогтися ефективних значень. Ви вказуєте розумний діапазон, і тестуючи різні комбінації, ви дізнаєтесь модель того, як ці гіперпараметри співвідносяться з точністю моделі. Це добре спрацювало для мене. Перегляньте "Практична байесівська оптимізація алгоритмів машинного навчання" від Snoek, Larochelle та Adams ( http://papers.nips.cc/paper/4522-practical-bayesian-optimization-of-machine-learning-algorithms.pdf ).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.