Ентропія зображення


21

Який найбільш інформаційний / фізико-теоретичний правильний спосіб обчислити ентропію зображення? Мене зараз не хвилює ефективність обчислень - я хочу, щоб це було теоретично максимально правильним.

Почнемо із зображення сірого масштабу. Один із інтуїтивно зрозумілих підходів - розглядати зображення як мішок пікселів і обчислювати

Н=-кpклог2(pк)
де - кількість рівнів сірого, а - ймовірність, пов'язана з рівнем сірого .Кpкк

З цим визначенням є дві проблеми:

  1. Він працює для однієї смуги (тобто сірої шкали), але як слід поширити її статистично правильним способом на декілька діапазонів? Наприклад, для 2-х смуг, чи повинен один базуватися на і, таким чином, на PMF, використовуючи ? Якщо в одному є багато ( >> 2) смуг, тоді , що здається неправильним.(Х1,Х2)П(Х1=х1,Х2=х2)БП(Х1=х1,...,ХБ=хБ)1/NБНМАХ
  2. Просторова інформація не враховується. Наприклад, наведені нижче зображення (опіка над Джоном Лумісом ) мають однаковий , хоча явно вони не передають однакову інформацію.Н

введіть тут опис зображеннявведіть тут опис зображення

Хтось хотів би пояснити чи дати пораду, чи посилати мене на якийсь гідний довідковий матеріал з цього питання? Мене в основному цікавить теоретично правильний підхід другої проблеми (тобто просторової інформації).


2
Я думаю, ви повинні подивитися на випадкові поля Маркова,
seanv507

1
також матриці збиття грайевель
seanv507

@ seanv507, так, справді. Ненаправлені графічні моделі чи випадкові поля Маркова - це те, що я зараз вивчаю. Відправить повідомлення, коли я дізнаюся більше.
Давор Йосипович

Відповіді:


17

"Який найбільш інформаційний / фізико-теоретично правильний спосіб обчислення ентропії зображення?"

Відмінне та своєчасне запитання.

Всупереч поширеній думці, дійсно можливо визначити інтуїтивно (і теоретично) природну інформацію-ентропію для зображення.

Розглянемо наступну рисунок:

введіть тут опис зображення

Ми можемо бачити, що диференціальне зображення має більш компактну гістограму, тому її інформаційна ентропія Шеннона нижча. Таким чином, ми можемо отримати меншу надмірність, використовуючи ентропію Шеннона другого порядку (тобто ентропію, отриману з диференціальних даних). Якщо ми можемо поширити цю ідею ізотропно на 2D, то ми можемо очікувати хороших оцінок щодо інформації-ентропії зображення.

Двовимірна гістограма градієнтів дозволяє розширити 2D.

Ми можемо формалізувати аргументи і, справді, це було завершено нещодавно. Коротке резюме:

Зауваження, що просте визначення (див., Наприклад, визначення MATLAB визначення ентропії зображення) ігнорує просторову структуру, є вирішальним. Щоб зрозуміти, що відбувається, варто коротко повернутися до справи 1D. Давно відомо, що використовуючи гістограму сигналу для обчислення інформації / ентропії Шеннона, ігнорується тимчасова або просторова структура і дає низьку оцінку властивості стиснення або надмірності сигналу. Рішення вже було доступне в класичному тексті Шеннона; використовувати властивості другого порядку сигналу, тобто ймовірності переходу. Спостереження в 1971 р. (Райс & Плаун), що найкращим предиктором значення пікселя при растровому скануванні є значення попереднього пікселя, що негайно призводить до диференціального предиктора та ентропії Шеннона другого порядку, що вирівнюється з простими ідеями стиснення, такими як кодування довжини запуску. Ці ідеї були вдосконалені в кінці 80-х, що призвело до використання класичних методів кодування зображень без втрат (диференціальних), які все ще застосовуються (PNG, JPG без втрат, GIF, JPG2000 без втрат), в той час як вейвлети та DCT використовуються лише для кодування втрат.

Перехід зараз до 2D; дослідникам було дуже важко поширити ідеї Шеннона на більш високі виміри, не вводячи залежність від орієнтації. Інтуїтивно можна очікувати, що інформація-ентропія зображення Шеннона не залежить від його орієнтації. Ми також очікуємо, що зображення зі складною просторовою структурою (як, наприклад, випадковий шум запитувача) мають більш високу інформаційну ентропію, ніж зображення з простою просторовою структурою (на зразок гладкого прикладу сірого шкали запитувача). Виявляється, причина, по якій було так важко розширити ідеї Шеннона від 1D до 2D, полягає в тому, що в початковій рецепті Шеннона є (однобічна) асиметрія, яка перешкоджає симетричному (ізотропному) формулюванню в 2D. Після виправлення 1D асиметрії розширення 2D може протікати легко і природно.

Вирізання на погоню (зацікавлені читачі можуть ознайомитись з детальною експозицією в препринті arXiv за адресою https://arxiv.org/abs/1609.01117 ), де ентропія зображення обчислюється з 2D гістограми градієнтів (функція щільності ймовірності градієнта).

Спочатку 2D pdf обчислюється за допомогою бінінгу оцінок похідних зображень x та y. Це нагадує операцію бінінгу, що використовується для генерування більш поширеної гістограми інтенсивності в 1D. Похідні можна оцінити за допомогою кінцевих різниць у 2 пікселях, обчислених у горизонтальному та вертикальному напрямках. Для квадратного зображення NxN f (x, y) обчислюємо значення NxN часткових похідних fx і NxN значення fy. Ми скануємо диференціальне зображення, і для кожного пікселя ми використовуємо (fx, fy) для пошуку дискретного біна в масиві призначення (2D pdf), який потім збільшується на одиницю. Повторюємо для всіх NxN пікселів. Отриманий 2D pdf повинен бути нормалізований, щоб мати загальну одиничну ймовірність (цього досягає просто ділення на NxN). 2D-pdf тепер готовий до наступного етапу.

Обчислення 2D ентропії інформації Шеннона від 2D градієнта pdf є простим. Класична формула логарифмічного підсумовування Шеннона застосовується безпосередньо, за винятком вирішального коефіцієнта половини, який походить із спеціальних міркувань вибіркового діапазону для зображення градієнта (детальніше див. Статтю arXiv). Половинний коефіцієнт робить обчислену 2D ентропію ще нижчою порівняно з іншими (більш надмірними) методами оцінки 2D ентропії або стиснення без втрат.

Вибачте, що тут я не написав необхідних рівнянь, але все доступне в тексті переддруку. Обчислення прямі (неітераційні), а складність обчислень - порядок (кількість пікселів) NxN. Кінцева обчислена інформаційна ентропія Шеннона не залежить від обертання і точно відповідає кількості бітів, необхідних для кодування зображення в не надмірному поданні градієнта.

До речі, новий 2D ентропійний показник передбачає (інтуїтивно приємну) ентропію 8 біт на піксель для випадкового зображення та 0,000 біт на піксель для плавного зображення градієнта в оригінальному запитанні.


1
Цікава робота. Тепер у цій роботі Razlighi зробив порівняння кількох алгоритмів ентропії . Цікаво, як можна порівняти ваші, особливо щодо синтетичного зображення, яке він там використовує. Можливо, варто дослідити.
Давор Йосипович

Дякую за те, що ви згадали статтю про Разлігі. Найважливіші результати тестування показані на рис. 2. Я вважаю, що мій 2D-делентропний показник мав би одиничну нормалізовану ентропію для кореляції 0,0, а потім опустився до майже нульової нормованої ентропії для кореляції 1,0. Я фактично не обчислював ці значення, але це випливає безпосередньо з розділу 3.2 мого переддруку arXiv, оскільки висока кореляція відповідає низькій спектральній пропускній здатності, отже, низька ентропія.
Кіран Ларкін

Мені подобається такий підхід. Мені це здається інтуїтивно зрозумілим. Додатковий крок обчислення градієнта перед обчисленням ентропії, схоже, кодує просторову інформацію інтуїтивно. Я намагався грати навколо і обчислити його з Python тут . Але я намагався відтворити їдкий матеріал з вашого паперу (див. Код, останній приклад). Я можу їх лише відтворити поплавцями! Це тому, що з цілими числами градієнти знаходяться в [-6,6] для мого тестового зображення, навіть при використанні 16 біт, що призводить до всього 49 ненульових бін для гістограми.
mxmlnkn

ваша публікація коли-небудь була опублікована? Ви чи хтось ще продовжували роботу?
Андрій

Зразок коду Matlab був би чудовим.
Pedro77

8

Немає, все залежить від контексту та вашої попередньої інформації. Ентропія має багато тлумачень, таких як "вимірювання порядку" або "вимірювання інформації", але замість того, щоб дивитися на інтерпретації, ви могли просто подивитися на те, що це насправді. Ентропія - це лише спосіб вираження кількості станів системи. Система з багатьма станами має високу ентропію, а система з кількома станами - низькою ентропією.

Ви та стаття, на яку ви посилаєтесь, зазначають, що два зображення мають однакову ентропію. Це не правильно (для мене).

Стаття правильно обчислює ентропію.

Н=-кpклог2(pк)

pк=1М=2-н

Тому ентропія:

Н=-кpклог2(pк)=-к2-нлог2(2-н)=-лог2(2-н)=н

Однак, це НЕ так для другого зображення.

Ентропія все ще може бути обчислена як:

Н=-кpклог2(pк)

pк=1М=2-нp1p2,p3,p4pману

Тому два зображення не мають однакової ентропії.

Це може здатись інтуїтивно зрозумілим, що ентропія залежить від того, як ви дивитесь на проблему. Однак ви, мабуть, знаєте це з стиснення. Максимальне стиснення файлу продиктовано теоремою кодування джерела Шеннона, яка встановлює верхню межу, наскільки алгоритм стиснення може стискати файл. Ця межа залежить від ентропії файлу. Усі сучасні компресори будуть стискати файл, близький до цієї межі.

Однак, якщо ви знаєте, що файл є аудіофайлом, ви можете стиснути його за допомогою FLAC замість якогось загального компресора. FLAC без втрат, тому вся інформація зберігається. FLAC не може обійти теорему кодування джерела Шеннона, це математика, але він може дивитися на файл таким чином, що зменшує ентропію файлу, тим самим покращуючи стиснення.

Ідентично, коли я дивлюся на друге зображення, я бачу, що пікселі відсортовані за сірим значенням, і тому воно не має для мене такої ж ентропії, як зображення із випадковим шумом.


Я думаю, що ОП знає, чи це - він просить імовірнісні моделі, які включають просторову інформацію
seanv507

@ seanv507 Я перечитав питання. Я не впевнений, згоден я з вами чи ні. Я вважаю, що ОП шукає те, чого не існує.
боттигер

Н

@bottiger FLAC не може зменшити ентропію аудіофайлу, оскільки це за визначенням було б стисненням втрат. Це досягає стиснення, усуваючи надмірність.
Пол Ушак

Можливо, правильно сказати, що класична формула ентропії є правильною лише в тому випадку, якщо значення пікселів статично незалежні?
вольперосса

2

По суті, ідея ентропії - це щось на кшталт "кількості мікро-станів, що відповідають макродержаві".

p[Я,год]Яp[годЯ]

годЯ


1

Н=-кpклог2(pк)

це НЕ працює на практиці, по тій простій причині , що це майже неможливо визначити Рк. Ви думаєте, що можете це зробити, як це зробили, враховуючи кількість рівнів сірого. Pk - це не те. Pk - всі можливі комбінації рівнів сірого кольору. Отже, ви повинні створити багатовимірне дерево ймовірностей, враховуючи 1, 2, 3 ... комбінації пікселів. Якщо ви читаєте твір Шеннона, ви бачите, як він робить цей розрахунок для простої англійської мови, враховуючи глибину дерева в 3 літери. Потім він стає непростим без комп'ютера.

Ви самі це довели заявою 2. Ось чому ваш обчислення ентропії повертає однаковий рівень ентропії для двох зображень, хоча одне явно менше впорядковано, ніж інше.

Не існує також такої концепції просторового розподілу в межах обчислення ентропії. Якщо це було, вам також доведеться по-різному обчислювати ентропію для тимчасово розподілених зразків. А що б ви зробили для 11-мірного масиву даних? Для інформаційної ентропії; вона вимірюється в байтах.

Просто стисніть зображення за допомогою алгоритму стиснення. Він виведе оцінку ентропії в байтах. Це зробить це для будь-якого зображення або буквально будь-якого іншого, що може бути оцифровано, як-от музика чи шекспірівські п'єси.

Так. Ваш випадковий образ містить приблизно 114 Кбайт, а замовлений образ містить приблизно 2,2 Кбайт. Це те, чого ви очікували, але ви вже це знали, оскільки бачили, що розміри файлів зображень були такого розміру. Я зменшив розмір стиснення на 33%, щоб забезпечити подальші вдосконалення алгоритмів стиснення. Я не бачу їх покращення поза цим, оскільки крива поліпшення стає асимптотичною до справжнього основного значення.

PS Для зацікавлення Шекспір ​​лише протягом усього свого життя виробив 1 Мб ентропії ентропії, розрахованої за цією методикою. Більшість це дуже добре, хоча.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.