Якір швидше RCNN


10

У роботі "Швидше RCNN", коли йдеться про анкерування, що вони означають, використовуючи "піраміди посилальних коробок" і як це робиться? Чи це просто означає, що в кожній з анкерних точок W * H * k формується обмежувальне поле?

Де W = ширина, H = висота і k = кількість співвідношень сторін * шкала чисел

посилання на папір: https://arxiv.org/abs/1506.01497


Це дуже гарне запитання.
Майкл Р. Черник

Відповіді:


10

Якорі пояснили

Якіри

На даний момент ігноруйте вигадливий термін "піраміди довідкових коробок", якіри - це не що інше, як прямокутники фіксованого розміру, які слід подавати до мережі пропозицій регіону. Якіри визначаються на останній згортковій мапі ознак, тобто їх є, але вони відповідають зображенню. Для кожного якоря тоді RPN прогнозує ймовірність вмісту об'єкта взагалі та чотирьох коригувальних координат для переміщення та зміни розміру якоря у потрібне положення. Але як геометрія якорів має щось робити з RPN? (HfeaturemapWfeaturemap)(k)

Якіри фактично з'являються у функції Loss

Під час тренування RPN спочатку кожному якоря присвоюється мітка бінарного класу. Анкери з Перетини-над-Юніон ( IOU ) перекриття з коробкою приземного правда, вище певного порогу, присвоюється позитивний ярлик (таким же чином анкери з векселями менше заданого порогу буде позначена негативним). Ці мітки додатково використовуються для обчислення функції втрат:

Функція втрати RPN

p - класифікаційний головний вихід RPN, який визначає ймовірність якоря містити об'єкт. Для якорів, позначених як негативні, від регресії втрат не виникає - , мітка "основна правда" дорівнює нулю. Іншими словами, мережа не піклується про виведені координати для негативних якорів і раді, якщо вона їх правильно класифікує. У разі позитивних якорів враховуються втрати регресу. - вихід регресійної головки RPN, вектор, що представляє 4 параметризовані координати передбачуваного обмежувального поля. Параметризація залежить від геометрії якоря і полягає в наступному:pt

введіть тут опис зображення

де і h позначають центральні координати поля, його ширину і висоту. Змінні та призначені відповідно до прогнозованого вікна, вікна прив’язки та основного поля правдивості (аналогічно ).x,y,w,x,xa,xy,w,h

Також зауважте, що анкери без етикетки не є ні класифікованими, ні переробленими, і RPM просто викидає їх з обчислень. Після того, як робота RPN виконана, і пропозиції будуть сформовані, решта дуже схожа на швидкі R-CNN.


@Fathi Що робити, якщо у нас багато занять? Наскільки мені відомо, у Fast R-CNN кожному навчальному ролі присвоюється один клас основної істини. Отже, я здогадуюсь, що тут відбувається щось подібне?
thanasissdr

@Fathi Я повністю погоджуюся з тим, що ти кажеш, тож, гадаю, ти зі мною згоден. Я маю на увазі, що автори оригінальної статті для швидшого R-CNN використовували лише два класи (фон / об'єкт) для простоти, намагаючись пояснити, як працює RPN, правда? Отже, замість того, щоб мати лише два класи, я міг би мати більше ніж два, і я думаю, що міг би взяти відому функцію втрати перехресної ентропії, правда?
thanasissdr

@thanasissdr Основна ідея швидшого R-CNN полягала в тому, що "коли нейронні мережі так добре ставляться до всього іншого, чому б не використати їх і для пропозицій регіону?". Порівнюючи швидкий R-CNN зі стандартним R-CNN, єдиною відмінністю є те, що пропозиції RoI - які знову створюються за допомогою тих самих старих методів, наприклад, SelectiveSearch або EdgeBoxes - переносяться з необробленого зображення на конволюційні особливості, а потім подаються на ФК. Таким чином процес опускання прямої передачі кожного РоІ через CNN опускається.
Махан Фаті

У швидшому R-CNN RPN вчиться пропонувати відповідні регіони. Після того, як RPN виконаний, решта схожа на Fast R-CNN, а FCs класифікують і регресують пропозиції.
Махан Фаті

@thanasissdr Так. Ми на одній сторінці. Я припускаю, що ви можете класифікувати в RPN, але це було б зайвим, оскільки мережа FC знову проводить класифікацію, і не має труднощів відхиляти непотрібні пропозиції. Також подумайте про конвеєр, як ви збираєтеся використовувати класифікаційні оцінки та як вони допоможуть? Моє остаточне положення - класифікація (фон / об'єкт) є наріжним каменем у Швидшій R-CNN.
Махан Фаті

1

Я читав цей документ учора, і, на перший погляд, він мене також бентежив. Після перечитування я прийшов до такого висновку:

  • Останній шар вихідної мережі (ZF або VGG-16) служить вхідним фактором для мережі пропозицій регіону та об'єднання RoI. У випадку VGG-16 цей останній шар conv є a 7x7x512 (HxWxD).
  • Цей шар відображається на 512 розмірний шар з 3x3conv шаром. Вихідний розмір 7x7x512(якщо використовується підкладка).
  • Цей шар відображається на 7x7x(2k+4k)(наприклад 7x7x54) шар з 1x1шаром conv для кожної з kядерних ящиків.

Тепер згідно малюнка 1 на папері ви можете мати піраміду вхідних зображень (однакові зображення з різною шкалою), піраміду фільтрів (фільтри різного масштабу, в тому ж шарі) або піраміду посилань. Останній стосується kяєчних коробок на останньому шарі мережі пропозицій регіону. Замість фільтрів різного розміру, які розміщені один на одного (середній регістр), фільтри з різним розміром і співвідношенням розміщуються один на одного.

Коротше кажучи, для кожної точки прив’язки ( HxWнаприклад 7x7) використовується піраміда опорних коробок ( kнаприклад, 9).


але що саме являє собою коробку для якорів? Чи є призначення кожного ящика для якоря: використовується як вхід до RPN для прогнозування дельти в ширині та висоті ящика для якоря для кожної коробки якоря, яка вважається частиною переднього плану?
BadProgrammer

RPN передбачає як зміщення дельти місця переднього плану, так і показник об'єктивності. Останній намагається чітко передбачити, чи це фон або передній план (також див. Виноску 3).
Пітер

Чи можете ви пояснити, як 3x3перекладається шар conv 7x7? У прототексті написано, що на останньому шарі VGG16 накладка дорівнює 1.
Клік
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.