Що таке «семантична сегментація» порівняно з «сегментацією» та «маркуванням сцени»?

97

Семантична сегментація - це просто плеоназм чи існує різниця між "семантичною сегментацією" та "сегментацією"? Чи є різниця між "маркуванням сцени" або "синтаксичним розбором сцени"?

Яка різниця між піксельним рівнем та піксельною сегментацією?

(Побічне запитання: Коли у вас є така піксельна анотація, чи отримуєте ви розпізнавання об’єктів безкоштовно, чи ще є що робити?)

Будь ласка, надайте джерело для своїх визначень.

Джерела, що використовують "семантичну сегментацію"

Джонатан Лонг, Еван Шелхамер, Тревор Даррелл: Повністю згорткові мережі для семантичної сегментації . CVPR, 2015 та PAMI, 2016
Hong, Seunghoon, Hyeonwoo Noh та Bohyung Han: "Роз'єднана глибока нейронна мережа для напівконтрольованої семантичної сегментації". препринт arXiv arXiv: 1506.04924 , 2015.
В. Лемпіцький, А. Ведальді та А. Ціссерман: пілонна модель семантичної сегментації. У досягненні нейронних систем обробки інформації, 2011.

Джерела, що використовують "маркування сцен"

Клемент Фарабет, Каміль Купрі, Лоран Наджман, Янн ЛеКун: Вивчення ієрархічних особливостей для маркування сцен . У „Аналіз зразків та машинний інтелект”, 2013.

Джерело, яке використовує "піксельний рівень"

Пінейро, Педро О. та Ронан Коллобер: "Від рівня зображення до маркування рівня пікселів за допомогою згорткових мереж". Матеріали конференції IEEE з комп’ютерного зору та розпізнавання образів, 2015 рік (див. Http://arxiv.org/abs/1411.6228 )

Джерело, яке використовує "піксельно"

Лі, Хуншен, Руй Чжао та Сяоган Ван: "Високоефективне пряме і зворотне поширення згорткових нейронних мереж для піксельної класифікації". препринт arXiv arXiv: 1412.4526 , 2014.

Google Ngrams

"Семантична сегментація", схоже, останнім часом використовується частіше, ніж "маркування сцени"

— Мартін Тома
джерело

Інші терміни, які здаються дуже схожими: (класифікація / маркування за пікселями)

— Мартін Тома,

12

Дійсно цікаво, що @MartinThoma має препринт arXiv, що вивчає семантичну сегментацію, опублікований майже через 6 місяців після задання питання [посилання] ( arxiv.org/pdf/1602.06541.pdf ). Хороша робота!

— Мохамед Хасан

92

"сегментація" - це поділ зображення на кілька "цілісних" частин, але без жодної спроби зрозуміти, що ці частини представляють. Однією з найвідоміших робіт (але точно не першою) є Ши і Малік "Нормалізовані розрізи та сегментація зображень" PAMI 2000 . Ці роботи намагаються визначити "узгодженість" з точки зору низькорівневих ознак, таких як колір, текстура та плавність меж. Ви можете простежити ці роботи до теорії гештальта .

З іншого боку, "семантична сегментація" намагається розділити зображення на семантично значущі частини та класифікувати кожну частину на один із заздалегідь визначених класів. Ви також можете досягти тієї ж мети, класифікуючи кожен піксель (а не все зображення / сегмент). У цьому випадку ви робите класифікацію за пікселями, що веде до того самого кінцевого результату, але дещо іншим шляхом ...

Отже, я припускаю, що ви можете сказати, що "семантична сегментація", "маркування сцени" та "піксельна класифікація" в основному намагаються досягти однієї і тієї ж мети: семантично зрозуміти роль кожного пікселя в зображенні. Ви можете пройти безліч шляхів, щоб досягти цієї мети, і ці шляхи призводять до незначних нюансів у термінології.

— Шай
джерело

2

Який шлях веде до семантичної сегментації, а який до маркування сцени або піксельної класифікації?

— Мартін Тома,

3

Взагалі кажучи, @moose, якщо ви використовуєте інструменти та алгоритми, створені в галузі досліджень "сегментації" (наприклад, CRF, терміни, що викликають гладкість тощо), тоді ви робите "семантичну сегментацію". З іншого боку, якщо ви використовуєте інструменти та алгоритми, що використовуються в класифікації зображень, застосовуючи їх локально, ви, швидше за все, опишете свою роботу як "піксельне маркування". Однак я не думаю, що насправді існує якась практична різниця, лише семантична: це цілі синоніми тієї самої кінцевої мети.

— Шай,

63

Я прочитав багато робіт про виявлення об'єктів, розпізнавання об'єктів, сегментацію об'єктів, сегментацію зображень та семантичну сегментацію зображень, і ось мої висновки, які можуть бути неправдивими:

Розпізнавання об’єктів: У даному зображенні потрібно виявити всі об’єкти (обмежений клас об’єктів залежить від вашого набору даних), локалізувати їх за допомогою обмежувального поля та позначити цей обмежувальний блок ярликом. На зображенні нижче ви побачите простий результат розпізнавання сучасного об’єкта.

розпізнавання об’єктів

Виявлення об'єктів: це як розпізнавання об'єктів, але в цьому завданні у вас є лише два класи класифікації об'єктів, що означає обмежувальні об'єкти та не-об'єктні поля. Наприклад, виявлення автомобілів: вам потрібно виявити всі машини на даному зображенні з обмежувальними коробками.

Виявлення об'єктів

Сегментація об’єкта: Як і розпізнавання об’єктів, ви розпізнаєте всі об’єкти на зображенні, але у виведенні має відображатися цей об’єкт, що класифікує пікселі зображення.

сегментація об'єкта

Сегментація зображення: під час сегментації зображень ви сегментуєте області зображення. ваш результат не буде мітити сегменти та область зображення, які узгоджуються між собою, повинні знаходитися в одному сегменті. Витяг суперпікселів із зображення є прикладом цього завдання або сегментації переднього плану на задньому плані.

сегментація зображень

Семантична сегментація: У семантичній сегментації ви повинні позначити кожен піксель класом об’єктів (Автомобіль, Людина, Собака, ...) та не об’єктів (Вода, Небо, Дорога, ...). Іншими словами, у семантичній сегментації ви позначите кожну область зображення.

семантична сегментація

Я думаю, що позначення на рівні пікселів та пікселів - це однаково те саме, що це може бути сегментація зображень або семантична сегментація. Я також відповів на ваше запитання за цим посиланням як те саме.

— e_soroush
джерело

8

Я б також додав сегментацію екземплярів, тобто розмежування між екземплярами одного і того ж об'єкта

— Алекс

1

Я б сказав, що "Розпізнавання зображень" є синонімом "Класифікації зображень", а не "Виявлення зображень". Йдеться про розпізнавання одного чи кількох об’єктів на зображенні та можливість визначити, чи воно є. Якщо ми також хочемо знати, де воно знаходиться, нам потрібно буде виявити об'єкти за допомогою обмежувальних квадратів. Крім того, я не бачу причини, чому детектор об’єктів може виявляти лише один клас.

— пітц

Я частково з вами згоден. Я не згадував, що таке розпізнавання зображень, тому розпізнавання та класифікація зображень може означати те саме. Однак виявлення об'єктів здебільшого використовується для проблем двох класів, а розпізнавання об'єктів для мультикласу. У будь-якому випадку, я не маю охорони щодо своєї відповіді, це була просто моя ідея, коли я прочитав якийсь документ близько трьох років тому! Ура!

— e_soroush

Не могли б ви детальніше розповісти про деякі місця, звідки ви знаходите свої читання?

— qarthandso

36

Попередні відповіді справді чудові, я хотів би зазначити ще кілька доповнень:

Сегментація об’єктів

одна з причин того, що це впало в немилість дослідницького співтовариства, полягає в тому, що це проблематично розмито. Сегментація об’єктів раніше означала просто знаходження однієї або невеликої кількості об’єктів на зображенні та проведення межі навколо них, і для більшості цілей ви все ще можете припустити, що це означає це. Однак він також почав застосовуватися для означання сегментації крапок, які можуть бути об'єктами, сегментації об'єктів із заднього плану (частіше зараз називається фоновим відніманням або сегментацією фону або виявленням переднього плану), і навіть у деяких випадках використовується взаємозамінно з розпізнаванням об'єктів за допомогою обмежувальних полів (це швидко припиняється з появою глибоких нейромережевих підходів до розпізнавання об'єктів, але заздалегідь розпізнавання об'єктів також може означають просто позначення цілого зображення з об'єктом у ньому).

Що робить "сегментацію" "семантичною"?

Simpy кожному сегменту, або у випадку глибоких методів кожному пікселю, присвоюється мітка класу на основі категорії. Сегментація загалом - це лише поділ зображення за якимось правилом. Наприклад, сегментація середнього зсуву , наприклад, з дуже високого рівня, поділяє дані відповідно до змін енергії зображення. Графік вирізанийСегментація на основі аналогічно не вивчається, але безпосередньо походить від властивостей кожного зображення, окремо від решти. Більш пізні методи (засновані на нейронних мережах) використовують пікселі, які позначені мітками, щоб навчитися ідентифікувати локальні особливості, пов’язані з певними класами, а потім класифікувати кожен піксель, виходячи з того, який клас має найвищу довіру до цього пікселя. Таким чином, "маркування пікселів" насправді є більш чесною назвою для завдання, і компонент "сегментація" з'являється.

Сегментація екземпляра

Можливо, найскладніше, актуальне та оригінальне значення сегментації об’єктів, „сегментація екземпляра” означає сегментацію окремих об’єктів у межах сцени, незалежно від того, чи вони однакові. Однак одна з причин, чому це настільки складно, полягає в тому, що з точки зору бачення (і певним чином філософського) те, що робить екземпляр "об'єкта", не зовсім зрозуміле. Частини тіла є предметами? Чи слід взагалі сегментувати такі "часткові об'єкти" за допомогою алгоритму сегментації екземплярів? Чи слід їх сегментувати, лише якщо їх бачити окремо від цілого? А як щодо складених предметів, якщо дві речі повинні чітко сусідяти, але розділяти один-два предмети (це камінь, приклеєний до верху палиці сокирою, молотком або просто палицею та скелею, якщо це не зроблено належним чином?). Крім того, це не t зрозуміло, як розрізнити екземпляри. Заповіт є окремим екземпляром від інших стін, до яких він прикріплений? В якому порядку слід враховувати екземпляри? Як вони з’являються? Близькість до точки зору? Незважаючи на ці труднощі, сегментація предметів все ще є великою справою, тому що, як люди, ми постійно взаємодіємо з об'єктами незалежно від їх "мітки класу" (використовуючи випадкові предмети навколо вас як паперові гирі, сидячи на речах, які не є стільцями), і тому деякі набори даних намагаються розібратися в цій проблемі, але головна причина, що проблемі поки не приділяється багато уваги, полягає в тому, що вона недостатньо чітко визначена.

Розбір сцени / Позначення сцени

Розбір сцени - це суворо сегментований підхід до маркування сцен, який також має деякі власні проблеми невизначеності. Історично маркування сцени мало на меті розділити всю "сцену" (зображення) на сегменти і дати їм усім мітку класу. Однак це також використовувалося в значенні надання міток класів областям зображення без явного їх сегментування. Стосовно сегментації, "семантична сегментація" не означає поділу всієї сцени. Для семантичної сегментації алгоритм призначений для сегментування лише тих об'єктів, які він знає, і буде покараний функцією втрат для позначення пікселів, які не мають міток. Наприклад, набір даних MS-COCO - це набір даних для семантичної сегментації, де сегментовано лише деякі об’єкти.

— Physincubus
джерело