Розмежування класифікації на основі пікселів та об'єктної класифікації?


14

Я намагаюся чітко зрозуміти різницю між класифікацією на основі пікселів та об'єктно-орієнтованою класифікацією в області віддаленого зондування, і сподіваюся, що хтось із цієї спільноти може дати зрозуміти.

Виходячи з інформації, яку я маю до цих пір, моє теперішнє розуміння:

Класифікація на основі пікселів : Класифікація проводиться на рівні пікселів, використовуючи лише спектральну інформацію, доступну для цього окремого пікселя (тобто значення пікселів у межах місцевості ігноруються). У цьому сенсі кожен піксель представляв би навчальний приклад алгоритму класифікації, і цей приклад навчання був би у формі n-мірного вектора, де n - кількість спектральних смуг у даних зображення. Відповідно тренований алгоритм класифікації виводить прогнозування класу для кожного окремого пікселя в зображенні.

Класифікація на основі об'єкта: Класифікація проводиться на локалізованій групі пікселів з урахуванням просторових властивостей кожного пікселя, оскільки вони відносяться один до одного. У цьому сенсі приклад навчання алгоритму класифікації складатиметься з групи пікселів, а алгоритм навченого класифікації відповідно виводить передбачення класу для пікселів на груповій основі. Для грубого прикладу зображення може бути розділене на n сегментів однакового розміру, і кожному сегменту буде надано клас (тобто містить об'єкт / не містить об'єкта).

Чи є це мислення точним щодо значення цих термінів, чи є щось, що я пропустив?

Відповіді:


9

Ваше розуміння, як правило, правильно, однак, у вашому описі об'єктної класифікації є небезпеки - термін "об'єкт" відноситься до групи пікселів, не містить чи не містить він даний об'єкт чи ні.
Крім того, основна мета в об'єктно-класифікованій класифікації полягає не у тому, щоб мати сегменти однакового розміру, а "нарізати" / сегментувати зображення до внутрішньо однорідних фрагментів різної величини. Нарешті, прикладом тренінгу для об'єктно-класифікованої класифікації зазвичай є один або кілька фрагментів, створених в сегментації зображення.

Загалом, вищезазначене - лише незначні зміни у вашому описі.

Тепер на центральну частину - коли застосовувати кожен метод і як потенційно поєднувати їх сильні сторони.


Дякую, що справді допомогло з’ясувати. У мене була підозра, що я не зовсім зрозумів тонкощі об'єктно-класифікованої класифікації! Цікаво, що ви згадуєте можливість гібридних підходів, я ще так не думав. Чи можу я запитати, якби я застосував підхід із розсувним вікном до виявлення та класифікації об’єктів, чи існує технічний термін для такого підходу, застосований у домені дистанційного зондування?
RDG

1
так, це називається згортками. Дивіться мою відповідь.
Джон Пауелл

На мою думку, в класифікації на основі пікселів є нульова сила. Існують цікаві робочі процеси, що включають згортки плюс регресію для прогнозування обмежувальних коробок і місця розташування, але класифікація на основі пікселів сама по собі не має значення, імхо.
Джон Пауелл

1
@ JohnPowellakaBarça - в піксельних підходах є якась варта, коли розглядається багатопоточна програма, де класифікація орієнтована більше на зміни областей, а не на традиційний єдиний часовий крок.
Міккель Лідгольм Расмуссен

1
Звичайно, так, досить справедливо. Хоча, напевно, підходи на основі регіону, векторизовані, а потім порівнювані за часом, можуть дати потенційно більше розуміння, але ваш погляд добре сприйнятий.
Джон Пауелл

12

Що стосується класифікації на основі пікселів, то ви на місці. Кожен піксель є n-мірним вектором і буде присвоєний якомусь класу за якоюсь метрикою, будь то за допомогою підтримки Vector Vector Machines, MLE, якогось knn класифікатора тощо.

Що стосується класифікаторів, що базуються на регіонах, то за останні кілька років відбулися величезні зрушення, зумовлені комбінацією графічних процесорів, величезною кількістю даних, хмарою та широкою доступністю алгоритмів завдяки зростанню відкритого коду (полегшено від github). Одним з найбільших розробок у комп'ютерному зорі / класифікації був конволюційний нейронний мереж (CNN). Згорнуті шари "вивчають" функції, які можуть бути засновані на кольорі, як у традиційних класифікаторах на основі пікселів, але також створюють детектори ребер та всілякі інші екстрактори функцій, які можуть існувати в області пікселів (отже, і згорткової частини), які ви ніколи не може витягнути з піксельної класифікації. Це означає, що вони рідше неправильно класифікують піксель посередині області пікселів іншого типу - якщо ви коли-небудь запустили класифікацію та отримали лід посеред Амазонки, ви зрозумієте цю проблему.

Потім ви застосуєте повністю підключену нейронну мережу до "особливостей", отриманих завдяки згорткам, щоб насправді зробити класифікацію. Однією з інших великих переваг CNN є те, що вони є інваріантними за масштабами та обертанням, оскільки зазвичай між прошарками згортки та класифікаційним шаром є проміжні шари, які узагальнюють функції, використовуючи об'єднання та випадання, щоб уникнути перевитрати та допомогти у вирішенні проблем навколо масштаб та орієнтація.

На світових нейронних мережах є численні ресурси, хоча найкращим повинен бути клас "Стандарт" від Андрія Карпаті , який є одним із піонерів цієї галузі, а вся серія лекцій доступна на youtube .

Звичайно, є й інші способи поводження з класифікацією на основі пікселів порівняно з площею, але в даний час це сучасний підхід, і він має багато застосувань поза класифікацією дистанційного зондування, такі як машинний переклад та автошколи.

Ось ще один приклад класифікації на основі регіону , використовуючи Open Street Map для маркованих даних про навчання, включаючи вказівки щодо налаштування TensorFlow та роботи на AWS.

Ось приклад використання класифікатора, заснованого на виявленні ребер, в Google Earth Engine Engine, в даному випадку для шарнірного зрошення - використовуючи не що інше, як ядро ​​Гаусса і згортки, але знову ж таки, показуючи потужність підходів, що базуються на регіонах та краях.

введіть тут опис зображення

Хоча перевага об’єкта над класифікацією на основі пікселів досить широко прийнята, ось цікава літера в дистанційних зондуючих листах, що оцінюють ефективність об'єктно-класифікованої класифікації .

Нарешті, кумедний приклад - просто показати, що навіть із класифікаторами, заснованими на регіонах / на основі конволюцій, комп'ютерний зір все ще дуже важкий - на щастя, найрозумніші люди в Google, Facebook та ін. Працюють над алгоритмами, щоб можна було визначити різницю між собак, котів та різних порід собак та котів. Тож користувачі, зацікавлені у дистанційному зондуванні, можуть легко спати вночі: D

введіть тут опис зображення


0

Дуже проста відповідь така:

Якщо ви використовуєте лише спектральну інформацію (інтенсивність пікселів) як навчальний набір, ви робите базову класифікацію пікселів.

Якщо ви використовуєте як навчальний набір як просторову (пікселі околиці), так і спектральну інформацію, ви робите об'єктну базову класифікацію (використовуючи алгоритм, заснований на сегментації, наприклад, DBScan). У Computer Vision цей DBScan використовувався для вилучення Superpixel.

Примітка: ви можете використовувати спектральну інформацію в будь-якому сенсі (розмір, форма, контекст / текстура) для вилучення функції.

Ви можете використовувати різні підходи для того, щоб зробити видобуток функції за допомогою спектральної інформації.

Основне питання полягає в тому, як можна знайти найбільш правильний підхід до вилучення функцій та застосувати ефективний алгоритм (виявлення краю, сегментація на основі спектра, кластеризація) для поставленої проблеми для витіснення інформації з спектральної інформації.

Можна подумати про матрицю згортки, щоб зробити хороший аналіз як спектральної, так і просторової інформації для створення навчального набору.

Довідка: Мої знання після досвіду роботи понад 3 роки в галузі дистанційного зондування та домену GIS.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.