Це стосується статті " Ефективна локалізація об'єктів за допомогою згорткових мереж" , і з того, що я розумію, випадання реалізується в 2D.
Після прочитання коду від Кераса про те, як реалізовано просторовий 2D випадання, в основному реалізується випадкова бінарна маска форми [batch_size, 1, 1, num_channels]. Однак що саме робить цей просторовий 2D-випадаючий вхідний блок згортки форми [batch_size, висота, ширина, кількість_каналів]?
Я вважаю, що для кожного пікселя, якщо будь-який з шарів / каналів пікселя має негативне значення, для всіх каналів цього пікселя буде встановлено значення нуля. Це правильно?
Однак, якщо я здогадуюсь, правильно, то як використання двійкової маски форми [batch_size, висоти, ширини, num_channels], які точно відповідають розміру вихідного блоку введення, дає звичайний відкидання елементів (це відповідно до оригінальна реалізація відмови від tensorflow, яка встановлює форму двійкової маски як форму вводу)? Тому що це означатиме, що будь-який піксель у блоці conv негативний, то весь блок conv буде встановлений за замовчуванням до 0. Це заплутана частина, яку я не зовсім розумію.