"Який найбільш інформаційний / фізико-теоретично правильний спосіб обчислення ентропії зображення?"
Відмінне та своєчасне запитання.
Всупереч поширеній думці, дійсно можливо визначити інтуїтивно (і теоретично) природну інформацію-ентропію для зображення.
Розглянемо наступну рисунок:
Ми можемо бачити, що диференціальне зображення має більш компактну гістограму, тому її інформаційна ентропія Шеннона нижча. Таким чином, ми можемо отримати меншу надмірність, використовуючи ентропію Шеннона другого порядку (тобто ентропію, отриману з диференціальних даних). Якщо ми можемо поширити цю ідею ізотропно на 2D, то ми можемо очікувати хороших оцінок щодо інформації-ентропії зображення.
Двовимірна гістограма градієнтів дозволяє розширити 2D.
Ми можемо формалізувати аргументи і, справді, це було завершено нещодавно. Коротке резюме:
Зауваження, що просте визначення (див., Наприклад, визначення MATLAB визначення ентропії зображення) ігнорує просторову структуру, є вирішальним. Щоб зрозуміти, що відбувається, варто коротко повернутися до справи 1D. Давно відомо, що використовуючи гістограму сигналу для обчислення інформації / ентропії Шеннона, ігнорується тимчасова або просторова структура і дає низьку оцінку властивості стиснення або надмірності сигналу. Рішення вже було доступне в класичному тексті Шеннона; використовувати властивості другого порядку сигналу, тобто ймовірності переходу. Спостереження в 1971 р. (Райс & Плаун), що найкращим предиктором значення пікселя при растровому скануванні є значення попереднього пікселя, що негайно призводить до диференціального предиктора та ентропії Шеннона другого порядку, що вирівнюється з простими ідеями стиснення, такими як кодування довжини запуску. Ці ідеї були вдосконалені в кінці 80-х, що призвело до використання класичних методів кодування зображень без втрат (диференціальних), які все ще застосовуються (PNG, JPG без втрат, GIF, JPG2000 без втрат), в той час як вейвлети та DCT використовуються лише для кодування втрат.
Перехід зараз до 2D; дослідникам було дуже важко поширити ідеї Шеннона на більш високі виміри, не вводячи залежність від орієнтації. Інтуїтивно можна очікувати, що інформація-ентропія зображення Шеннона не залежить від його орієнтації. Ми також очікуємо, що зображення зі складною просторовою структурою (як, наприклад, випадковий шум запитувача) мають більш високу інформаційну ентропію, ніж зображення з простою просторовою структурою (на зразок гладкого прикладу сірого шкали запитувача). Виявляється, причина, по якій було так важко розширити ідеї Шеннона від 1D до 2D, полягає в тому, що в початковій рецепті Шеннона є (однобічна) асиметрія, яка перешкоджає симетричному (ізотропному) формулюванню в 2D. Після виправлення 1D асиметрії розширення 2D може протікати легко і природно.
Вирізання на погоню (зацікавлені читачі можуть ознайомитись з детальною експозицією в препринті arXiv за адресою https://arxiv.org/abs/1609.01117 ), де ентропія зображення обчислюється з 2D гістограми градієнтів (функція щільності ймовірності градієнта).
Спочатку 2D pdf обчислюється за допомогою бінінгу оцінок похідних зображень x та y. Це нагадує операцію бінінгу, що використовується для генерування більш поширеної гістограми інтенсивності в 1D. Похідні можна оцінити за допомогою кінцевих різниць у 2 пікселях, обчислених у горизонтальному та вертикальному напрямках. Для квадратного зображення NxN f (x, y) обчислюємо значення NxN часткових похідних fx і NxN значення fy. Ми скануємо диференціальне зображення, і для кожного пікселя ми використовуємо (fx, fy) для пошуку дискретного біна в масиві призначення (2D pdf), який потім збільшується на одиницю. Повторюємо для всіх NxN пікселів. Отриманий 2D pdf повинен бути нормалізований, щоб мати загальну одиничну ймовірність (цього досягає просто ділення на NxN). 2D-pdf тепер готовий до наступного етапу.
Обчислення 2D ентропії інформації Шеннона від 2D градієнта pdf є простим. Класична формула логарифмічного підсумовування Шеннона застосовується безпосередньо, за винятком вирішального коефіцієнта половини, який походить із спеціальних міркувань вибіркового діапазону для зображення градієнта (детальніше див. Статтю arXiv). Половинний коефіцієнт робить обчислену 2D ентропію ще нижчою порівняно з іншими (більш надмірними) методами оцінки 2D ентропії або стиснення без втрат.
Вибачте, що тут я не написав необхідних рівнянь, але все доступне в тексті переддруку. Обчислення прямі (неітераційні), а складність обчислень - порядок (кількість пікселів) NxN. Кінцева обчислена інформаційна ентропія Шеннона не залежить від обертання і точно відповідає кількості бітів, необхідних для кодування зображення в не надмірному поданні градієнта.
До речі, новий 2D ентропійний показник передбачає (інтуїтивно приємну) ентропію 8 біт на піксель для випадкового зображення та 0,000 біт на піксель для плавного зображення градієнта в оригінальному запитанні.