Хороші функції / алгоритми розпізнавання автомобільних моделей на зображеннях


9

У мене питання щодо розпізнавання об'єктів, особливо розпізнавання автомобільних моделей! Я на початку роботи про визначення однієї і тієї ж моделі автомобіля на різних зображеннях. На даний момент я думаю, що один з найкращих алгоритмів розпізнавання об'єктів 3D - це SIFT, але, трохи розібравшись із демо-реалізацією, у мене є дивні відчуття, що цей алгоритм має деякі проблеми з блискучими металевими предметами, як автомобілі, особливо якщо вони мають різні кольори.

Хтось знає якусь роботу над цією областю взагалі якийсь підходящий алгоритм для завдання пошуку однакової моделі автомобіля на різних зображеннях?

Заздалегідь дякую за вашу допомогу!


2
Чи можете ви розмістити деякі приклади зображень?
ендоліт

Звичайно. Зображення для створення моделей автомобілів ;-) можуть бути такими: s5 coupe training 1 або як s5 coupe training 2, але також "звичайні" фотографії. Зображення запитів можуть бути як s5 coupe query 1 сподіваюсь, що це допоможе!
jstr

Які альтернативні детектори функцій, такі як SIFT, GLOH або SURF, є для визначення відповідних ключових точок на автомобілях?
jstr

@jstr, якщо ви закінчили реалізувати описану нижче схему, наскільки добре вона працювала?
вирішення пузлів

Відповіді:


7

Я б подивився на так званий "мішок слів" або "візуальні слова". Він все частіше використовується для категоризації та ідентифікації зображень. Цей алгоритм зазвичай починається з виявлення на зображенні надійних точок, таких як SIFT-точки. Використовується область навколо цих знайдених точок (128-бітний дескриптор SIFT у вашому випадку).

У найпростішій формі можна збирати всі дані з усіх дескрипторів з усіх зображень і кластеризувати їх, наприклад, використовуючи k-засоби. Кожне оригінальне зображення має дескриптори, які сприяють ряду кластерів. Центроїди цих кластерів, тобто візуальні слова, можуть використовуватися як новий дескриптор зображення. В основному ви сподіваєтесь, що кластери зображення, до яких сприяють його дескриптори, вказують на категорію зображення.

Знову ж таки, у найпростішому випадку у вас є список кластерів, і на зображення ви підраховуєте, який із цих кластерів містив дескриптори цього зображення та скільки. Це аналогічно методу Термін Частота / Зворотна частота документа (TD / IFD), який використовується при пошуку тексту. Дивіться цей швидкий і брудний сценарій Matlab .

Цей підхід активно досліджується, і існує багато значно досконаліших алгоритмів.

Веб-сайт VLfeat містить хорошу, більш досконалу демонстрацію цього підходу, класифікуючи набір даних caltech 101. Також заслуговують на увазі результати та програмне забезпечення від самого Caltech .


Ей, Моріц, дякую за вашу відповідь. Я подумаю про це! Але одне питання. Якщо у мене є "наочні слова", як я вимірюю відстань між ними? Я думаю, я б використовував дескриптори SIFT, це правильно? - У Лоу є одна стаття, в якій він описує метод розпізнавання 3D-об'єктів шляхом створення моделей дескрипторів SIFT. Хтось знає якісь інші хороші статті на цю тему (розпізнавання 3D-об’єктів з іншими функціями)?
jstr

У цьому випадку просто евклідова відстань, оскільки ви кластеруєте цілі вектори. Я не думаю, що вам потрібно вимірювати відстань між центроїдами кластера як такою, але, швидше, коли ви подаєте зображення запиту (і, таким чином, дескрипторів запитів), ви вимірюєте, до яких центроїдів ці дескриптори є найбільш близькими.
Маврит

Гаразд із використанням вимірювання відстані зрозуміло ;-) але на яких даних? Що стосується Дескрипторів SIFT на візуальне слово?
jstr

Насправді тричі, як показник для початкового кластеризації, встановити, до якого центру / візуального слова дескриптор запитів є найбільш близьким, а потім, нарешті, порівняти вектор запиту td / idf з тими, що знаходяться в базі даних.
Маврит

Гаразд, я це зрозумів ;-), але на яких даних працює вимірювання відстані? На дескрипторах SIFT?
jstr
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.