Операція згортки, простіше кажучи, - це комбінація елементарного добутку двох матриць. Поки ці дві матриці узгоджуються за розмірами, не повинно виникнути проблем, і тому я можу зрозуміти мотивацію вашого запиту.
A.1. Однак наміром згортання є кодування матриці вихідних даних (цілого зображення) з точки зору фільтра або ядра. Більш конкретно, ми намагаємося кодувати пікселі в сусідніх пікселях якоря / джерела. Погляньте на малюнок нижче:
Зазвичай ми розглядаємо кожен піксель вихідного зображення як прив’язний / вихідний піксель, але ми не обмежені в цьому. Насправді, не рідкість є включення кроку, коли в нас пікселі якір / джерело розділені певною кількістю пікселів.
Гаразд, так що ж таке вихідний піксель? Це точка прив’язки, в якій ядро зосереджено, і ми кодуємо всі сусідні пікселі, включаючи піксель якоря / джерела. Оскільки ядро має симетричну форму (не симетрична за значеннями ядра), є однакове число (n) пікселів з усіх боків (4- підключення) якорного пікселя. Отже, якою б не була ця кількість пікселів, довжина кожної сторони нашого симетрично сформованого ядра становить 2 * n + 1 (кожна сторона якоря + піксель якоря), і тому фільтр / ядра завжди мають непарні розміри.
Що робити, якщо ми вирішили перерватися з «традицією» і використали асиметричні ядра? Ви зазнаєте помилок, але ми цього не робимо. Ми вважаємо піксель найменшою сутністю, тобто тут немає концепції пікселів.
A.2 Кордонна проблема вирішується з використанням різних підходів: деякі ігнорують її, деякі нульову панель, деякі дзеркально відображають її. Якщо ви не збираєтеся обчислювати зворотну операцію, тобто деконволюцію, і не зацікавлені в ідеальній реконструкції вихідного зображення, то вас не хвилює ні втрата інформації, ні введення шуму через граничну проблему. Зазвичай операція об’єднання (середнє об'єднання чи максимум об'єднань) все одно видалить ваші граничні артефакти. Отже, сміливо ігноруйте частину свого "поля введення", ваша операція об'єднання зробить це за вас.
-
Дзен згортки:
У домені обробки сигналів старої школи, коли вхідний сигнал згортався або проходив через фільтр, не було можливості судити заздалегідь, які компоненти згорнутої / відфільтрованої відповіді є релевантними / інформативними, а які - ні. Отже, метою було збереження в цих перетвореннях сигнальних компонентів (усіх).
Ці компоненти сигналу є інформацією. Деякі компоненти більш інформативні, ніж інші. Єдиною причиною цього є те, що ми зацікавлені в отриманні інформації вищого рівня; Інформація, що стосується деяких семантичних класів. Відповідно, ті компоненти сигналу, які не надають інформації, яка нас конкретно цікавить, можуть бути викреслені. Тому, на відміну від старошкільних догм про згортання / фільтрування, ми вільні об'єднати / обрізати реакцію на згортання так, як нам здається. Як ми це робимо, це жорстке видалення всіх компонентів даних, які не сприяють покращенню нашої статистичної моделі.