Ідея застосування фільтрів, щоб зробити щось на кшталт виявлення країв, є досить крутою ідеєю.
Наприклад, ви можете зробити зображення 7. За допомогою деяких фільтрів ви можете перетворити зображення, які підкреслюють різні характеристики вихідного зображення. Оригінал 7:
може сприйматися мережею як:
Зверніть увагу, як кожне зображення витягувало інший край оригіналу 7.
Це все чудово, але тоді, скажімо, наступним шаром у вашій мережі є рівень Max Pooling.
Моє запитання, як правило, чи не виглядає це трохи як надмірність? Ми просто були дуже обережні та обдумані з визначенням країв за допомогою фільтрів - тепер ми більше не піклуємося ні про що з цього, оскільки ми викреслили чорт із значень пікселів! Будь ласка, виправте мене, якщо я помиляюся, але ми перейшли від 25 X 25 до 2 X 2! Чому б тоді просто не піти прямо до Max Pooling, чи не закінчимось ми тим же самим?
Як розширення мого питання, я не можу не задатися питанням, що трапилося б, якщо, випадково, кожен з 4 квадратів просто має піксель з однаковим максимальним значенням. Звичайно, це не рідкісний випадок, правда? Раптом всі ваші навчальні зображення виглядають точно так само.
The pooling operation provides a form of translation invariance
?