Яка трансформація найбільше імітує слухову систему людини?


12

Перетворення Фур'є зазвичай використовуються для частотного аналізу звуків. Однак він має деякі недоліки, коли йдеться про аналіз сприйняття людиною звуку. Наприклад, його частотні відряди є лінійними, тоді як людське вухо відповідає на частоту логарифмічно, а не лінійно .

Перетворення вейвлетів можуть змінювати роздільну здатність для різних діапазонів частот , на відміну від перетворення Фур'є. Вейвлет - перетворення'S властивості дозволяють великі тимчасові опори для більш низьких частот, зберігаючи при цьому короткі тимчасові ширини для більш високих частот.

Morlet вейвлета тісно пов'язана з людським сприйняттям слуху. Він може бути застосований до транскрипції музики і дає дуже точні результати, які неможливі за допомогою методів перетворення Фур'є. Він здатний фіксувати короткі ноти повторюваних та чергування музичних нот з чітким часом початку та закінчення кожної ноти.

Постійної Q перетворення (тісно пов'язані з Морлі вейвлет - перетворення) також добре підходить для музичних даних . Оскільки вихід перетворення ефективно амплітуда / фаза проти частоти журналу, для зменшення заданого діапазону потрібно менше спектральних бункерів, і це виявляється корисним, коли частоти охоплюють кілька октав.

Перетворення демонструє зменшення роздільної здатності частоти з більшими частотами, що бажано для слухових застосувань. Він відображає слухову систему людини, завдяки чому на низьких частотах спектральна роздільна здатність краща, тоді як тимчасова роздільна здатність покращується на більш високих частотах.

Моє запитання таке: чи існують інші перетворення, які тісно імітують слухову систему людини? Хтось намагався розробити трансформацію, яка анатомічно / неврологічно відповідає якомога ближче слуховій системі людини?

Наприклад, відомо, що вуха людини мають логарифмічну реакцію на інтенсивність звуку . Відомо також, що контури рівної гучності змінюються не тільки по інтенсивності, але і по відстані в частоті спектральних компонентів . Звуки, що містять спектральні компоненти в багатьох критичних діапазонах, сприймаються як гучніші, навіть якщо загальний звуковий тиск залишається постійним.

Нарешті, людське вухо має обмежене тимчасове дозвіл обмежене частотою . Можливо, це можна було б також врахувати.


Ви накладаєте якісь математичні обмеження на "перетворення"?
Оллі Ніемітало

2
Кудо для всіх посилань!
Жиль

Жодна одиночна трансформація не може адекватно імітувати систему, настільки складну, як слухова система людини. Існуючі моделі HAS використовують складні архітектури обробки сигналів і кілька перетворень, що моделюють інший аспект слуху. Можливо, ви хочете розглянути детальне моделювання.
Fat32

Відповіді:


9

При розробці таких перетворень слід враховувати конкуруючі інтереси:

  • вірність слуховій системі людини (яка залежить від людей), включаючи нелінійні або навіть хаотичні аспекти (шум у вухах)
  • легкість математичної постановки для аналітичної частини
  • можливість дискретизувати його або дозволити швидке реалізацію
  • існування відповідного стійкого зворотного

Нещодавно у мене за вуха потрапили два дизайни прийомів : мотивація аудіації вейвлетів Гамматону, мотивована слухом , обробка сигналів, 2014

Здатність безперервного вейвлет-перетворення (CWT) забезпечувати хорошу локалізацію часу та частоти зробила його популярним інструментом у часо-частотному аналізі сигналів. Вейвлети виявляють властивість постійного Q, яким також володіють фільтри базилярної мембрани в периферичній слуховій системі. Базилярні мембранні фільтри або слухові фільтри часто моделюються функцією Гамматона, яка забезпечує гарне наближення до експериментально визначених реакцій. Банк фільтрів, отриманий з цих фільтрів, називається банком фільтрів Gammatone. Взагалі, вейвлет-аналіз можна порівняти з фільтруючим аналізом і, отже, цікавим зв’язком між стандартним вейвлет-аналізом і Гамматоновим фільтбанком. Однак функція Gammatone точно не кваліфікується як вейвлет, оскільки її середній час не дорівнює нулю. Ми показуємо, як добросовісні вейвлети можуть бути побудовані з функцій Gammatone. Ми аналізуємо такі властивості, як допустимість, продукт пропускної здатності, зникаючі моменти, що особливо актуально в контексті вейвлетів. Ми також показуємо, як запропоновані слухові вейвлети виробляються як імпульсна відповідь лінійної, інваріантної системи зсуву, керованої лінійним диференціальним рівнянням з постійними коефіцієнтами. Ми пропонуємо реалізацію аналогових схем запропонованого CWT. Ми також показуємо, як вейвлети, отримані з гамматону, можуть використовуватися для виявлення сингулярності та аналізу часових частот перехідних сигналів. Ми також показуємо, як запропоновані слухові вейвлети виробляються як імпульсна відповідь лінійної, інваріантної системи зсуву, керованої лінійним диференціальним рівнянням з постійними коефіцієнтами. Ми пропонуємо реалізацію аналогових схем запропонованого CWT. Ми також показуємо, як вейвлети, отримані з гамматону, можуть використовуватися для виявлення сингулярності та аналізу частотних часових сигналів. Ми також показуємо, як запропоновані слухові вейвлети виробляються як імпульсна відповідь лінійної, інваріантної системи зсуву, керованої лінійним диференціальним рівнянням з постійними коефіцієнтами. Ми пропонуємо реалізацію аналогових схем запропонованого CWT. Ми також показуємо, як вейвлети, отримані з гамматону, можуть використовуватися для виявлення сингулярності та аналізу частотних часових сигналів.

Перетворення ERBlet: слухове представлення часової частоти із ідеальною реконструкцією , ICASSP 2013

У цій роботі описаний спосіб отримання перцептивно мотивованого та ідеально оберненого часового частотного подання звукового сигналу. На основі теорії кадру та недавнього нестаціонарного перетворення Габора формулюється лінійне подання з роздільною здатністю, що розвивається по частоті, і реалізується як нерівномірна банка фільтрів. Для узгодження слухової частоти з частотою частоти звуку людини для трансформації використовуються вікна Гаусса, рівномірно розташовані на психоакустичній шкалі "ERB". Крім того, трансформація має адаптивну роздільну здатність та надмірність. Моделювання показали, що ідеальна реконструкція може бути досягнута за допомогою швидких ітеративних методів та попередньої кондиціонування навіть за допомогою одного фільтра на ЄРБ та дуже низької надмірності (1,08).

І зазначу також:

Слухова трансформація для обробки аудіосигналів, WASPAA 2009

Слухова трансформація представлена ​​в цій роботі. Через процес аналізу перетворення охоплює сигнали часової області в набір виводу банку фільтрів. Частотні відгуки та розподіли фільтруючої банки подібні до часток базилярної мембрани сліпої кишки. Обробка сигналів може проводитися в розкладеному сигнальному домені. Через процес синтезу розкладені сигнали можуть бути синтезовані назад до вихідного сигналу шляхом простого обчислення. Також представлені швидкі алгоритми дискретних сигналів часу як для прямого, так і для зворотного перетворень. Перетворення було затверджено теоретично і підтверджено в експериментах. Наведено приклад застосування шумопоглинання. Запропоноване перетворення є надійним для фонових та обчислювальних шумів і не містить гармонік тону.


1
Це саме те, що я шукав. Дякую.
користувач76284
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.