Що таке глобальний максимальний шар пулу та яка його перевага перед maxpooling шаром?


Відповіді:


69

Глобальне максимальне об'єднання = звичайний максимум об'єднаного шару з розміром пулу дорівнює розміру вводу (мінус розмір фільтра + 1, якщо бути точним). Ви можете бачити, що MaxPooling1Dце pool_lengthаргумент, тоді як GlobalMaxPooling1Dні.

Наприклад, якщо вхід максимуму шару об'єднання дорівнює , глобальний вихід максимального об'єднання , тоді як звичайний максимальний шар об'єднання з розміром пулу дорівнює 3 виходу (якщо припустити крок = 1).0,1,2,2,5,1,252,2,5,5,5

Це можна побачити в коді :

class GlobalMaxPooling1D(_GlobalPooling1D):
    """Global max pooling operation for temporal data.
    # Input shape
        3D tensor with shape: `(samples, steps, features)`.
    # Output shape
        2D tensor with shape: `(samples, features)`.
    """

    def call(self, x, mask=None):
        return K.max(x, axis=1)

У деяких областях, таких як обробка природних мов, зазвичай використовується глобальне об'єднання макс. У деяких інших областях, таких як комп'ютерний зір, звичайно використовувати максимум об'єднань, який не є глобальним.


4
Прийшов сюди, шукаючи середнє глобальне об'єднання (GAP), але з вашого простого, але дуже ефективного прикладу, я думаю, я можу здогадатися, що робить GAP :)
Джош

Дякую за цю дуже лаконічну відповідь. +1. Невеликий приклад, який ви навели - це те, що насправді змусило мене зрозуміти, що робить Global Max Pooling.
rayryeng

13

Як описано в цьому документі, який запропонував середнє глобальне об'єднання (GAP):

Звичайні звивисті нейронні мережі виконують згортку в нижніх шарах мережі. Для класифікації, особливі карти останнього згорткового шару векторизуються і подаються у повністю з'єднані шари з подальшим логістичним шаром логістичної регресії. Ця структура з’єднує звивисту структуру з традиційними класифікаторами нейронної мережі. Він розглядає звивисті шари як екстрактори, і отримана ознака класифікується традиційним способом.

Однак повністю пов'язані шари схильні до надмірного оснащення, тим самим утрудняючи здатність узагальнення загальної мережі. Випадання запропоновано Hinton et al як регуляризатор, який випадковим чином встановлює половину активацій повністю пов'язаних шарів до нуля під час тренувань. Це покращило здатність до узагальнення і значною мірою запобігає надмірній обробці.

У цьому документі ми пропонуємо іншу стратегію під назвою об'єднання середніх глобальних об'єднань для заміни традиційних повністю пов'язаних шарів у CNN. Ідея полягає у створенні однієї карти функцій для кожної відповідної категорії завдання класифікації в останньому шарі mlpconv. Замість того, щоб додавати повністю пов'язані шари поверх карт зображень, ми беремо середнє значення для кожної карти зображень, і отриманий вектор подається безпосередньо в шар softmax. Однією з переваг середнього глобального об'єднання над повністю з’єднаними шарами є те, що він є більш природним для структури згортки, застосовуючи відповідність між картами характеристик та категоріями. Таким чином, карти карт можна легко інтерпретувати як категорії довіри категорій. Ще одна перевага полягає в тому, що не існує жодного параметра, який би оптимізувався в середньому в усьому світі, таким чином, уникнути перевиконання на цьому рівні. Далі, глобальне середнє об'єднання підсумовує просторову інформацію, таким чином, вона є більш надійною для просторових перекладів вхідних даних. Ми можемо бачити середнє глобальне об'єднання як структурний регуляризатор, який явно виконує функції функціональних карт, щоб бути картами довіри понять (категорій). Це стає можливим завдяки шарам mlpconv, оскільки вони роблять краще наближення до достовірних карт, ніж GLM.

Редагувати: Як запропонував @MaxLawnboy, ось ще одна стаття на ту саму тему .


Ще один документ про всі моделі CNN arxiv.org/pdf/1412.6806v3.pdf
Максим Михайлов

Дякую @MaxLawnboy, я відредагую відповідь, щоб включити її.
Цілідзі Мудау
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.