Це невелике концептуальне питання, яке мене натякає на деякий час: Як ми можемо розповсюджуватися через шар максимального об'єднання в нейронній мережі?
Я натрапив на шари максимального об'єднання, переглядаючи цей підручник для бібліотеки nn Torch 7. Бібліотека резюмує обчислення градієнта і передачі вперед для кожного шару глибокої мережі. Я не розумію, як робиться розрахунок градієнта для шару максимального об'єднання.
Я знаю, що якщо у вас є вхід йде в нейрон шару , то (визначається як ) задається через:
Отже, шар максимального об'єднання отримає наступного шару як завжди; але оскільки функція активації для нейронів максимального об'єднання приймає вектор значень (над яким він максимуме) як вхідний, вже не одне число, а вектор ( треба було б замінити на ). Крім того, , будучи функцією max, не відрізняється щодо вхідних даних.
Отже .... як саме це повинно вийти?