Розуміння процесу обчислення особливостей SURF


9

Отже, я читав статтю про SURF (Bay, Ess, Tuytelaars, Van Gool: Speeded-Up Robust Features (SURF) ) і не можу зрозуміти цей параграф нижче:

Завдяки використанню коробних фільтрів та інтегральних зображень нам не доведеться ітеративно застосовувати один і той же фільтр до виходу попередньо відфільтрованого шару, але натомість можна застосовувати фільтри коробки будь-якого розміру з точно однаковою швидкістю безпосередньо на вихідне зображення та навіть паралельно (хоча остання тут не експлуатується). Тому простір масштабу аналізується шляхом збільшення масштабу фільтру, а не ітераційного зменшення розміру зображення, фіг.4.

This is figure 4 in question.

Малюнок 4

PS: У статті є пояснення цілісного зображення, проте весь зміст статті базується на конкретному вище пункті. Якщо хтось прочитав цей документ, чи можете ви коротко згадати, що тут відбувається. Математичне пояснення є досить складним, щоб добре зрозуміти спочатку, тому мені потрібна допомога. Дякую.

Редагувати, кілька питань:

1.

Кожна октава підрозділяється на постійну кількість рівнів масштабу. Через дискретний характер інтегральних зображень мінімальна різниця масштабу між двома наступними шкалами залежить від довжини lo позитивних чи негативних часток похідної часткового другого порядку у напрямку деривації (x або y), яка встановлюється на a третина довжини розміру фільтра. Для фільтра 9x9 ця довжина lo дорівнює 3. Для двох послідовних рівнів ми повинні збільшити цей розмір як мінімум на 2 пікселі (по одному пікселю на кожній стороні), щоб розмір був нерівномірним і таким чином забезпечив наявність центрального пікселя . Це призводить до загального збільшення розміру маски на 6 пікселів (див. Рисунок 5).

Figure 5

Малюнок 5

Я не міг зрозуміти рядки у заданому контексті.

Для двох послідовних рівнів ми повинні збільшити цей розмір як мінімум на 2 пікселі (по одному пікселю на кожній стороні), щоб розмір був нерівномірним і таким чином забезпечив наявність центрального пікселя.

Я знаю, що вони намагаються зробити щось із довжиною зображення, якщо його навіть вони намагаються зробити його дивним, щоб був центральний піксель, який дозволить їм обчислити максимум або мінімум градієнта пікселя. Я трохи не знаю щодо його контекстуального значення.

2.

Для обчислення дескриптора використовується вейвлет Хаар.

Хаар-вейвлет

Як середній регіон має низький але високий. dx |dx|

3.

Інший

У чому полягає необхідність мати приблизний фільтр?

4. У мене немає проблем з тим, як вони дізналися розмір фільтра. Вони "робили" щось емпірично. Однак у мене є певна проблема з цією частиною рядка

Вихід фільтра 9x9, введений у попередньому розділі, розглядається як початковий шар масштабу, до якого ми будемо називати масштаб s = 1,2 (наближення похідних Гаусса до σ = 1,2).

Як вони дізналися про значення σ. Крім того, як робиться розрахунок масштабування, показаний на зображенні нижче. Причиною, яку я заявляю про це зображення, є те, що значення s=1.2продовжує повторюватися, не чітко вказуючи на його походження. Зображення масштабу

5. Матриця Гессі, представлена ​​з точки зору, Lє згортанням градієнта другого порядку Гауссового фільтра та зображення.

Однак, як кажуть, "апроксимований" визначник містить лише терміни, що містять фільтр Гаусса другого порядку

Значення w:

Моє запитання, чому визначальний коефіцієнт обчислюється так, як вище, і який зв'язок між приблизною матрицею Гессіана та Гессея.


Гей! Я додав імена авторів та заголовок статті у ваших питаннях, сподіваюся, ви не заперечуєте. По-перше, це робить статтю пошуковою, навіть якщо посилання загине. По-друге, як хтось, хто займається дослідженнями, я думаю, що приписання авторів їхніх імен та назв публікації - це найменше, що ми можемо зробити, щоб визнати їхню роботу :)
пенелопа

@penelope: Я наполовину злякався, що люди будуть голосувати мене у небуття.
мотіур

Я думаю, що це дійсно приємне питання, одне з найбільш цікавих останнім часом. Я ніколи не потрапляв у SURF, але я можу спробувати поглянути ще завтра і побачити, чи зможу я зробити свій внесок, питання насправді зацікавило мене :) та PS: якщо ви це робите в рамках "офіційного" проекту Uni , Я впевнений, що ваш керівник із задоволенням допоможе вам (особливо якщо ви на рівні магістра). Частина їх роботи - навчити вас читати наукову літературу.
пенелопа

PPS: ви можете відредагувати своє запитання, щоб додати коротке пояснення термінів інтегральне зображення та фільтр вікна : розуміння того, що ви розумієте, ймовірно, допоможе нам зрозуміти те, чого ви не розумієте;)
penelope

@penelope: Ви дуже приємна дівчина / хлопець, що б там не було. І ні, я не повинен мати огляд літератури цього документу, я прочитав той, який написав Девід Лоу як у 2004, так і в 1999 році. Це було цілком зрозуміло, плюс там була чудова лекція на ютубі. Проблема полягає в тому, що в даній роботі використовуються тонни математичних термінів, які використовуються в SURF. Якщо у вас немає математичної моделі в голові, складніше бачити головну ідею.
мотіур

Відповіді:


10

Що таке SURF?

Щоб правильно зрозуміти, що відбувається, вам також потрібно ознайомитись з SIFT : SURF - це в основному наближення SIFT. Тепер справжнє питання стає: що таке SIFT? .

SIFT є і детектором ключових точок, і дескриптором ключових точок . У частині детектора SIFT, по суті, є багатомасштабним варіантом класичних кутових детекторів, таких як кут Харріса, і він має можливість автоматичної настройки шкали. Тоді, з огляду на розташування та розмір патчу (отриманий із шкали), він може обчислити дескрипторну частину.

SIFT дуже добре поєднує фрагменти зображень, що локалізуються, але має один недолік: обчислити дорого (тобто довго). Велика кількість часу витрачається на обчислення гауссового масштабу-простору (у частині детектора), потім на обчислення гістограм градієнтного напрямку (для дескрипторної частини).

І SIFT, і SURF можна розглядати як різницю гауссів з автоматичним вибором масштабу (тобто гауссових розмірів). Це, ви спочатку будуєте простір масштабу, де вхідне зображення фільтрується в різних масштабах. Простір масштабів можна розглядати як піраміду, де два послідовних зображення пов'язані зміною масштабу (тобто розмір гауссового низькопрохідного фейтера змінився), а шкали потім групуються за октавами (тобто велика зміна за розміром фільтра Гаусса).

  • У SIFT це робиться шляхом багаторазової фільтрації входу з гауссом фіксованої ширини до досягнення шкали наступної октави.
  • У SURF ви не зазнаєте жодної штрафу за час виконання від розміру фільтра Гаусса завдяки використанню трюку цілісного зображення. Таким чином, ви обчислюєте зображення, відфільтроване за кожною шкалою (не використовуючи результат за попередньою шкалою).

Частина наближення

Оскільки обчислення масштабу простору Гаусса та гістограми градієнтного напрямку є довгим, хороша ідея (обрана авторами SURF) замінити ці обчислення швидкими наближеннями.

Автори зауважили, що малі гаусси (як і ті, що використовуються в SIFT) можуть бути добре наближені квадратними інтегралами (також відомими як розмиття коробки ). Ці середні прямокутники мають приємну властивість отримувати дуже швидко завдяки інтегральному трюку зображення.

Крім того, масштабний простір Гаусса насправді не використовується сам по собі , а для наближення до лаплаціан гауссів (це можна знайти в роботі SIFT). Таким чином, вам потрібні не просто розмиті гауссові зображення, а похідні та відмінності їх. Отже, ви лише просуньте трохи далі ідею наближення гаусса до коробки: спочатку виведіть гаусса стільки разів, скільки потрібно, а потім наближте кожну часточку до коробки правильного розміру. Зрештою, ви отримаєте набір функцій Haar.

Приріст на 2

Це лише артефакт реалізації, як ви здогадалися. Мета - мати центральний піксель. Дескриптор характеристик обчислюється відносно центру виправленого зображення.

Середній регіон

При переході від чорного променя до білого променя, тобто що - щось на зразок . Тоді, переходячи від білого до чорного, ви маєте протилежну суму: . Таким чином, у вас є невелика для вікна, але більша сума величин.all pix in columnx=Aall pix in columnx=Ax

Магічне число

Перша шкала отримується шляхом застосування розмиття з (або 1,4 в деяких роботах). Це тому, що природне (справжнє) гостре зображення можна вважати результатом згортання ідеального (без згладжування) зображення з розмитим ядром шириною . Я справді не можу згадати, звідки вона походить, але вона також була чітко вивчена в роботі Гуошен Ю на A-SIFT, тож ви можете перевірити цю сторінку .σ=1.2σ=1.2


Дякую за пояснення, він очистив деякі речі, дозвольте мені побачити, чи хтось має більш детальне розуміння.
мотіур

Я відредагував відповідь стосовно ваших нових запитань.
sansuiso

О так, дякую, помітно. Папір начебто довга, тому багато чого йде відразу.
мотіур

Хочете переглянути останню редакцію?
мотюр

1
Це поєднання загальних спільних знань (малих гауссів добре наближається до розмитості коробки), експериментів (хв / макс. Розмірів об'єктів, що цікавлять зображення в реальному світі) та математики (з огляду на початковий розмір виправлення, обчислювальні прямокутники та гаусси, що вписуються) .
sansuiso

4

Щоб визначити потенційні точки інтересу, для обробки зображення часто використовується функція різниці Гаусса (DOG) , що робить його інваріантним за масштабом та орієнтацією.

У SIFT піраміди зображень встановлюються шляхом фільтрації кожного шару з DOG зростаючих sigmaзначень та прийняття різниці.

З іншого боку, SURF застосовує набагато швидше наближення часткових похідних Гаусса другого порядку з Лаплаціаном Гауссовим (LoG) та квадратними фільтрами різного розміру (9 * 9, 15 * 15, ...). Обчислювальна вартість не залежить від розміру фільтра. Для sigmaпізніших рівнів піраміди не відбувається вибірка (зміна ), а лише збільшення розміру фільтра, що призводить до того, що зображення мають однакову роздільну здатність.

EDIT

Ще одне зауваження: автори в своїй статті додатково спростити Gaussian другу похідну в 4 напрямках (х, у, ху, ух) з ядром [1 -2 1], [1 -2 1]', [1 -1;-1 1]і [-1 1;1 -1]. Коли розмір фільтра збільшується, вам просто потрібно розширити спрощені області ядра, щоб досягти більшого. І він еквівалентний DOG з різними масштабами (крива LoG має таку ж форму, як DOG, а розмір фільтра також робить їх ширину рівною).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.