Різниця між "ядром" і "фільтром" в CNN


Відповіді:


42

У контексті згорткових нейронних мереж ядро ​​= фільтр = детектор функцій.


Ось чудова ілюстрація із посібника з глибокого вивчення Стенфорда (також непогано пояснив Денні Брітц ).

введіть тут опис зображення

Фільтр - це жовте розсувне вікно, його значення:

[101010101]

2
Чи є конкретна назва фільтра? Як "Розмиття" чи "
Виявлення

2
@PratikKhadloya ні, ці назви дослідники дають суб'єктивно на основі того, що фільтр, як видається, виявляє.
shadowtalker

1
@Frank Dernoncourt за цим посиланням на адресуdatascience.com/… вони різні, коли у нас є пара каналів. насправді, коли є декілька каналів. Кожен фільтр насправді є колекцією ядер, при цьому є одне ядро ​​для кожного вхідного каналу до шару, і кожне ядро ​​є унікальним. Я був би радий мати вашу ідею
sariii

6

Карта особливостей така ж, як фільтр або "ядро" в цьому конкретному контексті. Ваги фільтра визначають, які конкретні особливості виявляються.

Так, наприклад, Франк забезпечив чудову візуальність. Зауважте, що його фільтр / детектор функцій має x1 уздовж діагональних елементів та x0 уздовж усіх інших елементів. Таким чином, зважування ядра виявило б пікселі на зображенні, які мають значення 1 по діагоналях зображення.

Зауважте, що отримана згорнута ознака показує значення 4, де б зображення не було "1" уздовж діагональних значень фільтра 3x3 (таким чином виявляючи фільтр у цьому конкретному розділі 3x3 зображення), і нижчі значення 2 в областях зображення, де цей фільтр не збігався так сильно.


4

Як щодо цього ми використовуємо термін «ядро» для двовимірного масиву ваг, а термін «фільтр» для 3D-структури з декількох ядер, складених разом? Розмір фільтра -k×k×CCCHin×Hin×C32×32RGB-зображення). Має сенс використовувати інше слово для опису 2D масиву ваг і різного для 3D структури ваг, оскільки множення відбувається між 2D масивами, а потім підсумовуються результати для обчислення 3D операції.

В даний час існує проблема з номенклатурою в цій галузі. Існує багато термінів, що описують одне і те ж, і навіть терміни, які взаємозамінно використовуються для різних понять! Візьмемо для прикладу термінологію, яка використовується для опису виходу шару згортки: карти карт, канали, активації, тензори, площини тощо ...

На основі вікіпедії "Ядро - це невелика матриця при обробці зображень".

На основі вікіпедії "Матриця - це прямокутний масив, розташований по рядках і стовпцях".

k1×k2×C

Ну, я не можу стверджувати, що це найкраща термінологія, але краще, ніж просто використовувати терміни "ядро" та "фільтр" взаємозамінно. Крім того, нам потрібне слово, щоб описати концепцію різних 2D-масивів, які утворюють фільтр.


1

Існуючі відповіді чудово і всебічно відповідають на питання. Просто хочу додати, що фільтри в конволюційних мережах поділяються по всьому зображенню (тобто вхід складається із фільтра, як це візуалізується у відповіді Франка). Сприйнятливе поле конкретного нейрона все вхідні блоки , які впливають на нейрон в питанні. Рецептивне поле нейрона в конволюційній мережі, як правило, менше, ніж сприйнятливе поле нейрона в щільній мережі за допомогою спільних фільтрів (також званих спільним використанням параметрів ).

Обмін параметрами надає певну користь для CNN, а саме властивість, що називається еквівалентністю перекладу . Це означає, що якщо вхід збурений або переведений, вихід також буде модифікований таким же чином. Ian Goodfellow подає чудовий приклад у книзі глибокого навчання щодо того, як практикуючі можуть скористатися еквівалентністю у CNN:

При обробці даних часових рядів це означає, що згортання створює своєрідну часову шкалу, яка показує, коли на вході з’являються різні функції. Якщо ми перемістимо подію пізніше у вході, то саме таке представлення її з’явиться у висновку, трохи пізніше. Аналогічно із зображеннями, згортка створює 2-D карту, де певні функції відображаються на вході. Якщо ми перемістимо об’єкт на вході, його представлення перемістить ту саму суму у висновку. Це корисно, коли ми знаємо, що деяка функція невеликої кількості сусідніх пікселів є корисною, коли вона застосовується до кількох вхідних місць. Наприклад, під час обробки зображень корисно виявити ребра в першому шарі згорткової мережі. Одні й ті ж самі ребра з’являються більш-менш скрізь на зображенні, тому практично ділитися параметрами на всьому зображенні.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.