Які властивості роблять певні вейвлети «кращими», ніж інші при стисненні зображення?


40

Я намагаюся навчити себе більше про стиснення зображення за допомогою методу перетворення вейвлетів. Моє запитання: Що з певних вейвлетів робить їх кращими під час стискання зображень? Чи простіше їх обчислити? Чи створюють вони більш плавні зображення? І т.д. ...

Приклад: JPEG 2000 використовує хвилечку Cohen-Daubechies-Feauveau 9/7 ... чому саме цей?


Наскільки мені відомо, вейвлет Daubechies забезпечує гладку основу, отже, сильно стислі зображення "розмиті". Наприклад, вейвлет Хаара створював блякі артефакти. Оскільки ви згадали про JPEG 2000, я хотів би зазначити, що також схема кодування ненульових коефіцієнтів вейвлет впливає на декодовані зображення (EZW, SPIHT, ...).
Libor

На ваше запитання відповіла Берін. Не соромтеся проголосувати за корисне та прийміть найпридатніший
Лоран Дюваль

Відповіді:


27

Огляд

Коротка відповідь полягає в тому, що вони мають максимальну кількість vanishing momentsдля даної support(тобто кількість коефіцієнтів фільтра). Це "екстремальне" властивість, яке взагалі відрізняє вейвлети Daubechies . Якщо говорити слабко, то більше зникаючих моментів передбачає кращу компресію, а менша підтримка - менше обчислень. Насправді, компроміс між зникаючими моментами та розміром фільтра настільки важливий, що він домінує над тим, як називаються вейвлети. Наприклад, ви часто бачите D4вейвлет, який називається D4або db2. 4Відноситься до числа коефіцієнтів, і2відноситься до кількості зникаючих моментів. Обидва відносяться до одного математичного об'єкта. Нижче я поясню докладніше, що це за моменти (і чому ми хочемо змусити їх зникнути), але поки що, просто зрозумійте, що це стосується того, наскільки добре ми можемо "скласти" більшу частину інформації в сигналі на менший кількість значень. Стиснення втрат досягається збереженням цих значень та викиданням інших.

Тепер ви, можливо, помітили CDF 9/7, що в імені JPEG 2000є два числа, а не одне. Насправді це також називається bior 4.4. Це тому, що це зовсім не "стандартний" дискретний вейвлет. Насправді, це навіть технічно не зберігає енергію в сигналі, і ця властивість є цілковитою причиною того, що люди в першу чергу так схвилювались від DWT! Цифри 9/7і 4.4, як і раніше, відносяться до опор і зникаючих моментів відповідно, але тепер є два набори коефіцієнтів, які визначають вейвлет. Технічний термін полягає в тому, що orthogonalвони не є biorthogonal. Замість того, щоб заглиблюватися в те, що це означає математично, я

JPEG 2000

Більш детально обговорити проектні рішення навколо вейвлету CDF 9/7 можна знайти в наступному документі:

Usevitch, Bryan E. Навчальний посібник із стиснення сучасних зображень втрачених хвилеводів : основи JPEG 2000 .

Я просто перегляну основні моменти тут.

  1. Досить часто ортогональні вейвлети Daubechies можуть насправді призвести до збільшення кількості значень, необхідних для представлення сигналу. Ефект викликається coefficient expansion. Якщо ми робимо стиснення втрат, яке може не мати значення (оскільки ми все одно викидаємо значення в кінці), але воно, безумовно, здається контрпродуктивним в контексті стиснення. Одним із способів вирішення проблеми є трактування вхідного сигналу як періодичного.

  2. Просто трактування введення як періодичного призводить до розривів на краях, які важче стискати, і є лише артефактами перетворення. Наприклад, розглянемо стрибки від 3 до 0 у наступному періодичному розширенні: . Щоб вирішити цю проблему, ми можемо використовувати симетричне періодичне розширення сигналу таким чином: . Усунення стрибків по краях є однією з причин, що замість DFT у JPEG використовується дискретна косинова трансформація (DCT). Представлення сигналу з косинусами неявно передбачає "переднє та заднє циклічне" вхідного сигналу, тому ми хочемо вейвлетів, які мають однакову властивість симетрії.[0,1,2,3][...0,1,2,3,0,1,2,3,...][0,1,2,3][...,0,1,2,3,3,2,1,0,0,1...]

  3. На жаль, єдиним ортогональним вейвлетом, який має необхідні характеристики, є вейвлет Хаар (або D2, db1), який є лише одним зникаючим моментом. Тьфу. Це призводить нас до біртогональних вейвлетів, які насправді є надмірними уявленнями, а тому не зберігають енергію. Причина використання вейвлетів CDF 9/7 на практиці полягає в тому, що вони були розроблені таким чином, щоб вони були дуже близькими до енергозбереження. Вони також добре зарекомендували себе на практиці.

Існують й інші способи вирішення різних проблем (коротко згадуваних у статті), але це широкі риски факторів.

Моменти, що зникають

То які бувають моменти, і чому ми дбаємо про них? Гладкі сигнали можуть бути добре наближені поліномами, тобто функціями форми:

a+bx+cx2+dx3+...

Моменти функції (тобто сигнал) є мірою того, наскільки вона схожа на задану силу x. Математично це виражається як внутрішній добуток між функцією та силою x. Зникаючий момент означає, що внутрішній добуток дорівнює нулю, і тому функція не «нагадує» таку силу x, як слід (для безперервного випадку):

xnf(x)dx=0

Тепер кожен дискретний, ортогональний вейвлет має два пов'язані з ним фільтри FIR , які використовуються в DWT . Один - фільтр низьких частот (або масштабування) , а другий - фільтр високої частоти (або вейвлет)ϕψ. Ця термінологія, здається, дещо відрізняється, але я тут буду використовувати. На кожному етапі DWT фільтр високої частоти використовується для "відшаровування" шару деталей, а фільтр низьких частот дає згладжений варіант сигналу без цієї деталі. Якщо у високочастотному фільтрі є моменти, що зникають, ці моменти (тобто поліноміальні функції низького порядку) будуть вбудовані в додатковий згладжений сигнал, а не в сигнал деталізації. У випадку стиснення втрат, сподіваємось, що детальний сигнал не буде мати в ньому багато інформації, і тому ми можемо викинути більшу частину його.

Ось простий приклад використання вейвлета Haar (D2). Зазвичай в цьому випадку бере участь коефіцієнт масштабування , але я його опускаю тут, щоб проілюструвати концепцію. Два фільтри такі: 1/2

ϕ=[1,1]ψ=[1,1]

Високочастотний фільтр зникає за нульовий момент, тобто , тому він має один зникаючий момент. Щоб побачити це, розглянемо цей постійний сигнал: . Тепер інтуїтивно, повинно бути очевидно, що там мало інформації (або в будь-якому постійному сигналі). Ми могли б описати те саме, сказавши «чотири двійки». DWT дає нам спосіб чітко описати цю інтуїцію. Ось що відбувається під час одного проходу DWT за допомогою вейвлета Haar:x0=1[2,2,2,2]

[2,2,2,2]ψϕ{[2+2,2+2]=[4,4][22,22]=[0,0]

І що відбувається на другому проході, який працює на просто згладжений сигнал:

[4,4]ψϕ{[4+4]=[8][44]=[0]

Зверніть увагу на те, як постійний сигнал абсолютно непомітний для деталей проходить (які всі виявляються 0). Також зауважте, як чотири значення були зменшені до одного значення . Тепер, якщо ми хотіли передати вихідний сигнал, ми могли б просто надіслати , а зворотний DWT міг реконструювати вихідний сигнал, вважаючи, що всі коефіцієнти деталізації дорівнюють нулю. Хвилянки із зникаючими моментами вищого порядку дозволяють отримати аналогічні результати із сигналами, які добре наближені лініями, параболами, кубіками тощо.8 8288

Подальше читання

Я переглядаю багато деталей, щоб забезпечити доступність вищезазначеного лікування. Наступний документ має значно глибший аналіз:

М. Унсер та Т. Блу, Математичні властивості вейвлет-фільтрів JPEG2000 , IEEE Trans. Image Proc., Vol. 12, ні. 9, вересень 2003, стор.1080-1090.

Зноска

Вищенаведений документ, схоже, говорить про те, що вейвлет JPEG2000 називається Daubechies 9/7 і відрізняється від вейвлета CDF 9/7.

Ми отримали точну форму фільтрів масштабування JPEG2000 Daubechies 9/7 ... Ці фільтри є результатом факторизації того ж многочлена, що і [10]. Основна відмінність полягає в тому, що фільтри 9/7 симетричні. Більше того, на відміну від біортогональних сплайсів Коена-Даубекіа-Фево [11], нерегулярна частина многочлена була поділена між обома сторонами і максимально рівномірно.Daubechies8

[11] А. Коен, І. Доубіес і Ж. К. Фево, “Біортогональні основи компактно підтримуваних вейвлетів”, Комітет. Чистий додаток Math., Vol. 45, ні. 5, с. 485–560, 1992.

Проект стандарту JPEG2000 ( PDF-посилання ), який я переглядав, також називає офіційний фільтр Daubechies 9/7. Він посилається на цей документ:

М. Антоніні, М. Барло, П. Матьє та І. Доубіес, “Кодування зображень за допомогою вейвлет-перетворення”, IEEE Trans. Зображення Прок. 1, С. 205-220, квітень 1992 року.

Я не читав жодного з цих джерел, тому не можу точно сказати, чому Вікіпедія називає вейвлет JPEG2000 CDF 9/7. Здається, що між ними може бути різниця, але люди так чи інакше називають офіційний вейвлет JPEG2000 CDF 9/7 (адже він базується на одній підставі?). Незалежно від назви, документ Usevitch описує той, що використовується у стандарті.


@datageist Фантастична відповідь! Крім того, ще одна причина, що 9/7 існувала в першу чергу, полягала в тому, що це був альтернативний спосіб розподілити поліном реконструкції з обмеженням того, що фільтри будуть симетричними . Таким чином, фазова характеристика залишається лінійною. (На відміну від цього, вейвлет daub4, хоча FIR, несиметричний і індукує нелінійні фази в обробленому сигналі). 9/7 використовувались у JPEG через суб'єктивну схильність для подобання лінійних над нелінійними спотвореннями у зображеннях.
Космічний

1
Приємна стаття. Інформація у статті вікіпедії відповідає цитованим джерелам, по суті, Даубехіям "10 лекцій", тому вона може бути застарілою щодо JPEG2000. Одне виправлення: біортогональний не є зайвим. Умови біортогональності накладають саме зворотні банки фільтрів. Надмірні перетворення починаються з каркасів.
Доктор Лутц Леманн

10

Добрість сигнальних перетворень оцінюється за двома різними показниками: стиснення, а у випадку стиснення втрат - якість. Стиснення визначається шляхом ущільнення енергії, але якість складніше.

Традиційно якість вимірюється середньоквадратичною помилкою або середнім значенням SNR на піксель. Однак люди не схильні оцінювати сигнали за допомогою MSE або SNR. Люди дуже чутливі до структурованого шуму, де MSE, як правило, не буває. Розробка алгоритмів, які забезпечують людські показники якості, є активною сферою досліджень. Індекс структурної SIMilarity (SSIM) Бовіка - хороше місце для початку.


6

Як дуже коротка відповідь - будь-яке перетворення краще, ніж інше перетворення, коли воно має, те, що відомо як "властивість ущільнення енергії", яке пояснюється нижче:

"коли лише невелика частка коефіцієнтів перетворення має велику величину, така що збереження лише кількох коефіцієнтів ефективності та відкидання чи квантування інших усе ще дозволяє відновити будівництво майже ідеально". Така властивість пов'язана з декорреляційною здатністю унітарних перетворень ".

Перетворення з меншою властивістю ущільнення енергії - це те, що потребуватиме найменшої кількості символів і, отже, менших бітів.

Перетворення з найбільшою властивістю ущільнення енергії - DCT.

Діпан.


1
DCT має найвище ущільнення енергії для невідомих класів сигналу. Якщо ви можете охарактеризувати свій домен сигналу, ви можете зробити краще.
totowtwo

Я згоден @totowtwo. Моя думка, що "властивість компактності енергії" - це те, що робить певну трансформацію - це те, що робить її кращим для кодекових двигунів.
Діпан Мехта

5

Природні зображення складаються з різних особливостей зображення, ми можемо їх класифікувати на гладкі або повільно змінювані функції, текстури та краї. Хороший метод стиснення - це той, який перетворює зображення в область, де вся енергія сигналу зберігається всього за кілька коефіцієнтів.

Перетворення Фур'є намагається наблизити зображення за допомогою синусів і косинусів. Тепер синуси та косинуси можуть наближати плавні сигнали досить стисло, але, як відомо, погано підходять для наближення розривів. Якщо ви знайомі з явищем Гіббса, ви знаєте, що для уникнення артефактів наближення розриву в часі потрібно велика кількість фур'є-коефіцієнтів. Однак чим менша кількість коефіцієнтів, тим краще стиснення. Отже, існує притаманна компромісія між кількістю коефіцієнтів і втратою методу стиснення, який ми зазвичай називаємо компромісом швидкості та спотворення.

У пошуках кращої схеми стиснення, ніж jpeg, яка використовує перетворення Фур'є, нам потрібно би перетворення, яке може наближати розриви з меншими коефіцієнтами, ніж перетворення Фур'є, для того ж спотворення. Введіть вейвлет, який пропонує кращу апроксимацію і, отже, кращу компресію точкових особливостей без явища гібса, як артефакти. Зображення на практиці ніколи не бувають чисто гладкими, тому вейвлети є більш універсальними, ніж фур'є, для різноманітних особливостей зображення. Якби ми порівнювали найкраще k-термінове наближення зображення, що містить ребра, використовуючи як фур’є, так і вейвлети, помилки розпадаються як і K - 1k2/3k1відповідно. За однакової кількості термінів помилка скорочується для вейвлетів. Це означає, що вейвлети мають кращу енергію ущільнення, коли зображення не ідеально гладкі (повільно змінюються) і містять особливості.

Однак у нас поки немає єдиної основи або перетворення, яке може наближати плавні риси, особливості точок, ребер та текстур.


4

DCT має дуже гарне ущільнення енергії для багатьох загальних сигналів, і він також досить добре поєднується з тим, як працює дифракція (основний фізичний процес у візуалізації), оскільки дифракція може бути представлена ​​як ядро ​​фур'є. Вони дають йому багато переваг.

Проблема полягає в тому, що коефіцієнти DCT обов'язково делокалізуються по всій області перетворення. Це вимагає створення багатьох малих областей (блоків) перетворення, щоб енергія в одній області не перекидалася на іншу при перетворенні. Це одночасно обмежує здатність перетворення до компактної енергії, а також вносить артефакти на безліч меж блоку.

Я не робив багато з вейвлетами, тому я можу помилятися, але вони більше ділокалізовані, з різними коефіцієнтами, що представляють різні компроміси за площею та частотою. Це дозволяє збільшити розміри блоків із меншими артефактами. На практиці не впевнений, скільки різниці, що насправді має велике значення.


0

Говорячи про кращі вейвлети, ми повинні враховувати, що вони мають однаковий кодер на задній частині: продуктивність перетворення сильно переплітається з квантуванням та кодуванням. Продуктивність зазвичай така: краща компресія для тієї ж якості або краща якість для тієї ж компресії. Стиснення - це простий показник, якість - ні. Але припустимо, у нас він є.

Тепер вейвлет (з кодером) може бути кращим за коефіцієнта стиснення (скажімо, низький), а гірший - для іншого (скажімо, високий). В основному лише незначно, але залежно від того, стискаєте ви високий ( ) або низький ( ), ви можете вибрати різні вейвлети.× 4×124×4

Нарешті, це залежить від класу зображень, які ви хочете стиснути: цільового призначення або зосередженого, як із медичними зображеннями, або сейсмічного стиснення даних, з обмеженими, конкретними типами даних? Тут знову вейвлети можуть бути різними.

Тепер, які основні морфологічні компоненти зображень, і як вейвлети поводяться з ними:

  • повільні тенденції, що розвиваються на тлі: зникаючі моменти, які позбавляються поліномів у вейвлет-підсмугах,
  • удари: добре з функціями масштабування,
  • краї: ловить похідний аспект вейвлетів,
  • текстури: коливання, захоплені хитаючим аспектом вейвлетів,
  • решта, що шумно, немодельовано: керується ортогональністю (або теж близько).

Тож, з боку аналізу, найкращі вейвлети добре ущільнюють вищезазначені характеристики в усьому світі. Що стосується синтезу, найкращі вейвлети пом'якшують ефекти стиснення, наприклад, квантування, для надання приємного аспекту. Властивості, необхідні при аналізі / синтезі, трохи відрізняються, тому біортогональні вейвлети приємні: ви можете розділити властивості аналізу (зникнення) / синтез (гладкість), чого не можна зробити з ортогональними, і провокує збільшення довжини фільтра , досить згубний для обчислювальної роботи. Додаткові, біортогональні вейвлети можуть бути симетричними, хорошими для ребер.

Нарешті, ви хочете стиснення без втрат? Тоді вам потрібні "цілі" вейвлети (або бінлети).

І все вищесказане в поєднанні з обчислювальними питаннями: роздільні вейвлети, не надто довгі. І процес стандартизації в комітеті JPEG.

Нарешті, 5/3 досить хороший для без втрат, досить короткий. Деякі з 9/7 теж хороші. Набагато краще, ніж вейвлет 13/7 ? Не дуже, і навіть якщо це в PSNR, не найкраще за якістю зображення.

Тож найкращі вейвлети - це вуса, як для традиційних образів, так і для особистого спілкування з авторами

М. Унсер та Т. Блу, Математичні властивості вейвлет-фільтрів JPEG2000 , IEEE Trans. Image Proc., Vol. 12, ні. 9, вересень 2003, стор.1080-1090.

змусити мене повірити, що "найкращий" аспект 9/7 не є повністю поясненим, а також не гарантованим.

Тому що ви можете отримати значно більше за інших банків-фільтрів (багатодіапазонів або -діапазонів ). Можливо, недостатньо для виправдання нового стандарту.M

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.