Рецептивне поле нейронів у LeNet


9

Я намагаюся краще зрозуміти сприйнятливі поля CNN. Для цього я хотів би обчислити сприйнятливе поле кожного нейрона в LeNet. Для нормального MLP це досить просто (див. Http://deeplearning.net/tutorial/lenet.html#sparse-connectivity ), але складніше обчислити сприйнятливе поле нейрона в шарі, що слідує за одним або кількома згортковими шарами і об'єднання шарів.

Яке сприйнятливе поле нейрона в 2. згортковому шарі? Наскільки більший він у наступному шарі піддиагностики / об'єднання? І яка формула для їх обчислення?


1
Пов’язана бічна панель запропонувала це питання , яке стосується того, про що ви думаєте та цікавого.
Дугал

Відповіді:


2

Якщо ви думаєте про згорткову мережу як про екземпляр стандартного MLP, ви можете визначити сприйнятливі поля точно так само, як приклад, який ви пов’язали.

Нагадаємо, що згортковий шар по суті є стенограмою для шару з багатьма повторними візерунками, як на цьому зображенні (з цієї відповіді , спочатку звідси ):

наочний приклад згортки

Кожен з «пікселів призначення» цього зображення відповідає нейрону, вхідними даними якого є синій квадрат у вихідному зображенні. Залежно від вашої мережевої архітектури, згортки можуть не точно відповідати таким пікселям, але це та сама ідея. Ваги, які використовуються як вхідні дані для всіх цих звивистих нейронів, пов'язані, але це не має значення для того, про що ви тут думаєте.

Об'єднання об'єднаних нейронів можна розглядати однаково, поєднуючи сприйнятливі поля кожного з їх входів.


Приємна візуалізація! Ваш приклад має ідеальний сенс. Якщо я додав би шар шару 2х2 після згорткового шару, то кожен нейрон у об'єднавчому шарі мав би лише сприйнятливе поле 4х4, незважаючи на змішування чотирьох полів 3х3, оскільки нейрони в згортковому шарі перекриваються. Я легко можу обміняти це питання і створити прості формули для сприйнятливого поля на основі розміру об'єднання тощо. Однак він стає складнішим для наступного згорткового шару, оскільки сприйнятливе поле тепер також залежить від кроку для шару опитування тощо. Яка формула РФ враховує це?
пір

так синій квадрат у вихідному пікселі є розміром сприйнятливого поля?
Чарлі Паркер

У мене є те саме питання, в роботі "Швидше R-CNN: На шляху виявлення об'єктів у реальному часі з регіональними мережами пропозицій", в розділі 3.1 написано, що поле сприйняття ZF і VGG16 становить 171 і 228, але воно не додає вгору від конфігурації мережі. Сподіваюся, хтось міг би це зрозуміти для мене.
Чан Кім

0

У Faster-rcnn ефективне сприйнятливе поле можна обчислити так (VGG16):

Img->
Conv1 (3) -> Conv1 (3) -> Pool1 (2) ==>
Conv2 (3) -> Conv2 (3) -> Pool2 (2) ==>
Conv3 (3) -> Conv3 (3) ) -> Conv3 (3) -> Pool3 (2) ==>
Conv4 (3) -> Conv4 (3) -> Conv4 (3) -> Pool4 (2) ==>
Conv5 (3) -> Conv5 (3) ) -> Conv5 (3) ====>
3 * 3 вікно в мапі функцій.
Давайте візьмемо один вимір для простоти. Якщо ми повернемося з розміру 3, вихідне поле сприйняття:
1). на початку Conv5: 3 + 2 + 2 + 2 = 9
2). на початку Conv4: 9 * 2 + 2 + 2 + 2 = 24
3). на початку Conv3: 24 * 2 + 2 + 2 + 2 = 54
4). на початку Conv2: 54 * 2 + 2 + 2 = 112
5). на початку Conv1 (вихідний вхід): 112 * 2 + 2 + 2 = 228

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.