Причина квадратних зображень у глибокому навчанні


12

Більшість передових моделей глибокого навчання, таких як VGG, ResNet тощо, потребують квадратних зображень як вхідних даних, як правило, розміром пікселя 224x224 .

Чи є причина, чому вхід повинен мати однакову форму, або я можу створити конвеєрну модель з скажімо 100x200 (якщо я хочу зробити фасиміальне розпізнавання, наприклад, і у мене є портретні зображення)?

Чи збільшується вигода з більшим розміром пікселів, скажімо, 512x512 ?

Відповіді:


10

Немає вимоги до конкретних розмірів пікселів для нормальної роботи конволюційних нейронних мереж. Цілком імовірно, що значення були обрані з прагматичних причин - наприклад, компроміс між використанням деталей зображення та кількістю параметрів та необхідним розміром навчального набору.

Крім того, якщо вихідні дані мають діапазон різного співвідношення сторін, деякий портрет, деякий пейзаж із цільовим об'єктом, як правило, в центрі, то прийняття квадратного обрізання з середини може бути розумним компромісом.

Коли ви збільшуєте розмір вхідного зображення, ви також збільшуєте кількість шуму та дисперсії, з якою мережі знадобиться боротися, щоб обробити цей вхід. Це може означати більше шарів - і згортання, і об'єднання. Це також може означати, що вам потрібно більше прикладів тренувань, і, звичайно, кожен приклад тренінгу буде більше. Разом вони збільшують обчислювальні ресурси, необхідні для проходження навчання. Однак якщо ви зможете подолати цю вимогу, можливо, ви отримаєте більш точну модель для будь-якого завдання, де додаткові пікселі можуть змінити значення.

Одне з можливих правил щодо того, чи хотіли б ви отримати більш високу роздільну здатність, якщо для мети вашої мережі експерт з людини може використати додаткову роздільну здатність і краще виконати завдання. Це може бути в регресійних системах, де мережа отримує з зображення деякі числові величини - наприклад, для розпізнавання обличчя, що витягує біометричні показники, такі як відстань між рисами обличчя. Можливо, це також буде бажаним для завдань з обробки зображень, таких як автоматизоване маскування - найсучасніші результати для цих завдань все ще можуть бути нижчої роздільної здатності, ніж комерційні зображення, де ми хотіли б їх застосувати на практиці.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.