Друга архітектура нейронної мережі (CNN), яку ви опублікували, походить з цієї статті . У статті автори дають характеристику того, що відбувається між шарами S2 та C3. Однак їх пояснення не дуже зрозумілі. Я б сказав, що ця архітектура CNN не є «стандартною», і це може бути дуже заплутаним як перший приклад для CNN.
28 × 285 × 5М× MN× NМ≥ N( М- N+ 1 ) × ( М- N+ 1 )
Що відбувається між шаром S2 та шаром C3, наступне. У шарі С3 створено 16 функціональних карт, виготовлених з 6 карт карт у шарі S2. Кількість фільтрів у шарі С3 дійсно не очевидна. Насправді, лише з діаграми архітектури не можна судити, яка точна кількість фільтрів, які створюють ці 16 карт функцій. Автори статті подають таку таблицю (стор. 8):
У таблиці вони надають наступне пояснення (внизу сторінки 7):
5 × 5
У таблиці автори показують, що кожна карта функцій у шарі С3 створюється за допомогою комбінування 3 або більше карт функцій (стор. 8):
Перші шість функціональних карт С3 беруть вхід з кожного суміжного підмножини трьох функціональних карт у S2. Наступні шість беруть дані з кожного суміжного підмножини з чотирьох. Наступні три беруть інформацію про деякі переривчасті підмножини з чотирьох. Нарешті, останній приймає дані з усіх карт функцій S2.
Тепер скільки фільтрів у шарі С3? На жаль, вони цього не пояснюють. Дві найпростіші можливості:
- Існує один фільтр на карту характеристик S2 на карті особливостей C3, тобто немає спільного використання фільтрів між картами функцій S2, пов'язаними з тією ж картою функцій C3.
- Існує один фільтр на мапі функцій C3, який розділяється на (3 і більше) картах функцій шару S2, які поєднуються.
В обох випадках «поєднувати» означало б, що результати згортання на групу функціональних карт S2 необхідно поєднувати з отриманими картами C3 ознак. Автори не вказують, як це робиться, але доповнення є загальним вибором (див., Наприклад, анімований gif поблизу середини цієї сторінки .
Автори дають деяку додаткову інформацію, яка може допомогти нам розшифрувати архітектуру. Вони кажуть, що "шар C3 має 1516 відслідковуваних параметрів" (стор. 8). Ми можемо використовувати цю інформацію для вирішення між випадками (1) та (2) вище.
( 6 × 3 ) + ( 9 × 4 ) + ( 1 × 6 ) = 60( 14 - 10 + 1 ) × ( 14 - 10 + 1 ) = 5 × 55 × 5 × 60 = 1 , 5001 , 500 + 16 = 1 , 516( 5 × 5 × 16 ) + 16 = 416
Отже, якщо ми знову подивимось на Таблицю I вище, є 10 чітких фільтрів С3, пов'язаних з кожною картою функцій S2 (таким чином, 60 різних фільтрів).
Автори пояснюють такий тип вибору:
Карти різних функцій [у шарі С3] змушені отримувати різні (сподіваємось, додаткові) функції, оскільки вони отримують різні набори входів.
Я сподіваюся, що це прояснює ситуацію.