Чому активні навушники не прирівнюються до плоскої частотної характеристики?


11

Деякі навушники «активні», підсилювачі вбудовані в чашки і потребують джерела живлення (як правило, батареї AAA).

Потім я бачу, що багато аудіофілів обговорюють частотну характеристику як показник того, наскільки гарні навушники, і вони категорично відкидають більшість «активних» навушників, таких як Dre Beats Studio.

Однак, з деякими підсилювачами, здавалося б, досить легко вирівняти вхідний сигнал, попередньо підсилений, таким чином, що він може повністю коректувати частотну характеристику водія і, таким чином, створювати надзвичайно рівну частотну характеристику за бажанням (чи ні, наприклад, бас підвищити або скоротити).

Чи є щось особливо складне з цим?

Графік відповіді на частоту http://graphs.headphone.com/graphCompare.php?graphType=0&graphID evidencegery=1383&graphID evidencegery=193&graphID evidenceSense=1263&graphID zabiljeний обвинений=853&scale=20

Наприклад, для Dre Beats Studio (синя лінія), можливо, схема EQ могла забезпечити + 3db @ 750 Гц, -5 дБ @ 1100 Гц, + 6,5 дБ@1300 Гц, + 5 дБ @ 1550 Гц, -4,5 дБ@8,5 кГц і + 14 дБ @ 15 кГц, з нахилами, налаштованими на найкраще вирівнювання частотної характеристики у 0db від 500 Гц до 20 кГц.

Відповіді:


20

Якщо ви щось приклали до вуха, відтворюючи стандартні стереозаписи, ви не бажаєте рівного відкликання частоти, оскільки функція передачі, пов’язана з головою, яка зазвичай грає для джерела звуку набагато далі, виглядає зовсім інакше, коли джерело проти вашого вуха .

Дозвольте процитувати вам кілька абзаців із книги :

З усіх компонентів ланцюга електроакустичної передачі навушники найбільш суперечливі. Висока вірність у своєму справжньому розумінні, що включає не лише тембр, але й просторову локалізацію, більше пов’язана із стереофонією гучномовців завдяки добре відомій головній локалізації навушників. І все ж бінауральні записи з манекеном, які є найбільш перспективними для справжньої високої вірності, призначені для відтворення в навушниках. Навіть у розквіті вони не знайшли місця в рутинних записах та трансляціях. У той час причинами були ненадійна лобова локалізація, несумісність із відтворенням гучномовців, а також їх схильність до неестетики. Оскільки цифрова обробка сигналів (DSP) може регулярно фільтрувати, використовуючи функції передачі, пов’язані з бінауральною головою, HRTF, манекени не потрібні.

Однак найпоширенішим застосуванням навушників є подавання їх стереосигналами, спочатку призначеними для гучномовців. Це ставить питання про ідеальну частотну характеристику. Для інших пристроїв ланцюга передачі (рис. 14.1), таких як мікрофони, підсилювачі та гучномовці, звичайна мета дизайну є плоскою характеристикою, з легкістю визначення відступів від цієї реакції в особливих випадках. Гучномовець потрібен для отримання плоскої відповіді SPL на відстані, як правило, 1 м. SPL вільного поля в цей момент відтворює SPL в місці розташування мікрофона в звуковому полі, скажімо, концерту, який записується. Слухаючи запис перед LS, голова слухача спотворює SPL лінійно шляхом дифракції. Його вушні сигнали більше не демонструють рівномірної реакції. Однак, це не стосується виробника гучномовців, оскільки це також сталося, якби слухач був присутній на виступі в прямому ефірі. З іншого боку, виробник навушників безпосередньо займається виробництвом цих вушних сигналів. Вимоги, викладені у стандартах, призвели до каліброваних навушників із вільним полем, частотна характеристика яких повторює вушні сигнали для гучномовця спереду, а також дифузної калібрування поля, метою якої є копія SPL у вухо слухач для звуку, що пронизує з усіх боків. Передбачається, що багато гучномовців мають невід'ємні джерела, кожен з яких має плоску характеристику напруги. виробник навушників безпосередньо займається виробництвом цих вушних сигналів. Вимоги, викладені у стандартах, призвели до каліброваних навушників із вільним полем, частотна характеристика яких повторює вушні сигнали для гучномовця спереду, а також дифузної калібрування поля, метою якої є копія SPL у вухо слухач для звуку, що пронизує з усіх боків. Передбачається, що багато гучномовців мають невід'ємні джерела, кожен з яких має плоску характеристику напруги. виробник навушників безпосередньо займається виробництвом цих вушних сигналів. Вимоги, викладені у стандартах, призвели до каліброваних навушників із вільним полем, частотна характеристика яких повторює вушні сигнали для гучномовця спереду, а також дифузної калібрування поля, метою якої є копія SPL у вухо слухач для звуку, що пронизує з усіх боків. Передбачається, що багато гучномовців мають невід'ємні джерела, кожен з яких має плоску характеристику напруги. в якій мета - відтворити SPL у вухо слухача для звуку, що звучить з усіх напрямків. Передбачається, що багато гучномовців мають невід'ємні джерела, кожен з яких має плоску характеристику напруги. в якій мета - відтворити SPL у вухо слухача для звуку, що звучить з усіх напрямків. Передбачається, що багато гучномовців мають невід'ємні джерела, кожен з яких має плоску характеристику напруги.

введіть тут опис зображення

(a) Реалізація вільного поля: для отримання кращого довідника різні міжнародні та інші стандарти встановили наступну вимогу до навушників високої точності: частотна характеристика та сприймана гучність для входу моносигналу постійної напруги - приблизно гучномовця з рівною відповіддю перед слухачем в анехогенних умовах. Функція передачі вільного поля (FF) для навушників на заданій частоті (1000 Гц, вибрана як 0 dB посилання) дорівнює величині в дБ, на яку потрібно посилити сигнал навушників, щоб надати рівну гучність. Потрібно усереднювати мінімальну кількість предметів (як правило, вісім). [...] На малюнку 14.76 показано типове поле толерантності.

введіть тут опис зображення

(b) Відповідь на дифузне поле: У 1980-х роках почався рух на заміну стандартних вимог вільного поля на інший, де дифузне поле (DF) є еталонним. Як виявилося, він пробився до стандартів, але не замінюючи старого. Тепер вони стоять осторонь. Незадоволення посиланням на FF виникало головним чином від величини піку 2 кГц. Це відповідало за забарвлення зображення, оскільки лобова локалізація не досягається навіть для моносигналу. Спосіб, яким слуховий механізм сприймає забарвлення, описується моделлю асоціації Тейля (рис. 14.62). Порівняння вушних відповідей для дифузного та вільного поля показано на рис. 14.77. [...] Оскільки суб'єктивний тест на прослуховування - це той, що рахується, Навушники FF поки що більше виняток, ніж правило. Добірка різних частотних характеристик доступна для задоволення індивідуальних переваг, і кожен виробник має власну філософію навушників з частотними характеристиками, починаючи від плоского до вільного поля і за його межами.

введіть тут опис зображення

Проблема різниці HRTF також полягає в тому, чому драйвери під нахилом (у навушниках) звучать краще достатньо людей, які такі компанії, як Sennheiser, продають. Кутові драйвери не повністю дозволяють навушникам звучати як динаміки.

На заводі або в лабораторії застосовується штучне вухо при вимірюванні частотної характеристики. Той, що знаходиться нижче, - лабораторний; заводські рівні трохи простіші.

введіть тут опис зображення

Я також знайшов методологію, що використовується на цьому веб-сайті HeadRoom :

Як ми перевіряємо частотну характеристику: Для виконання цього тесту ми керуємо навушниками серії 200 тонів при однаковій напрузі та постійно зростаючій частоті. Потім ми вимірюємо вихід на кожній частоті через вуха вузькоспеціалізованого (і дорогого!) Головного акустичного мікрофона. Після цього ми застосовуємо криву корекції звуку, яка видаляє пов'язану з головою функцію передачі і точно видає дані для відображення.

Мікрофон, що використовується, мабуть, цей . Здається, вони насправді інвертують функцію передачі манекена голова / вуха через програмне забезпечення, тому що прямо перед цим кажуть, що "Теоретично цей графік повинен бути плоскою лінією на 0 дБ" ... але я не зовсім впевнений, що вони роблять ... тому що після цього вони говорять, що навушники "природного звучання" повинні бути трохи вище в басах (приблизно 3 або 4 дБ) між 40 Гц і 500 ГГц ". і "Навушники також потрібно згортати у максимумі, щоб компенсувати так, щоб водії були так близько до вуха; м'яка похила плоска лінія від 1 кГц до приблизно 8-10 дБ внизу на 20 кГц - приблизно справа". Що для мене не зовсім складено стосовно попереднього твердження про інвертування / вилучення HRTF.

Дивлячись на деякі сертифікати, які люди отримали від виробника (Sennheiser) для моделі навушників (HD800), використовуваної у тому прикладі HeadRoom, здається, що HeadRoom відображає дані без будь-якої передбачуваної моделі корекції для самих навушників (що пояснює, чому вони дають свої пізніші пропозиції щодо інтерпретації, тому їх первісна «плоска» пропозиція є оманливою), тоді як Sennheiser використовує корекцію DF (дифузне поле), щоб їх графіки виглядали майже плоскими.

введіть тут опис зображення

введіть тут опис зображення

Це лише здогадка, але відмінності в вимірювальному обладнанні (та / або між зразками навушників) цілком можуть пояснити ці відмінності, оскільки вони не такі великі.


У будь-якому випадку це область активних та постійних досліджень (як ви, напевно, здогадувались з останніх пропозицій, цитованих вище про ДФ). Деякі дослідники з ХК дуже багато цього зробили; Я не маю (безкоштовного) доступу до їхніх публікацій AES, але деякі досить широкі резюме можна прочитати у блозі Internalfidelity 2013 , 2014 , а також за наступними посиланнями з головного блогу автора HK Шона Оліва ; як ярлик, ось кілька безкоштовних слайдів з їхньої останньої (листопада 2015 року) презентації, знайденої там. Це досить багато матеріалу ... Я лише коротко переглянув це, але тема здається, що DF недостатньо хороший.

Ось пара цікавих слайдів з однієї з їхніх попередніх презентацій . По-перше, повна частотна характеристика (не скорочена до 12 кГц) HD800 та на більш чітко розкритому обладнанні:

введіть тут опис зображення

І, мабуть, найбільший інтерес для OP, башта звучання Beats - це не все, що приваблює, надане порівняно з навушниками, які коштують у чотири-шість разів дорожче.

введіть тут опис зображення


Я не погоджуюся з вашою книгою, де сказано: "І все ж бінауральні записи з манекеном, які є найбільш перспективними для справжньої високої вірності, призначені для відтворення навушників. Навіть у свій розквіт вони не знайшли місця в рутинних записах і мовлення ". Кожне спортивне змагання на телебаченні, на якому я працював, використовує мікрофонний масив "голофон" для зйомки навколишнього звуку для використання в аудіо суміші об'ємного звуку. www.holophone.com
Dwayne Reid

@DwayneReid: Цікаво. Чи є кінцевою метою цих навушників для запису, чи це 5.1 або 7.1 об'єм із динаміками? Є також технологія для зменшення суміші 5.1 / 7.1 на навушники, але я тут не вникав у це.
Фіз

Що ж, продукт, розміщений на їх головній сторінці, говорить: "це єдиний запатентований мікрофон, спеціально розроблений для зйомки дискретних 7,1 каналів об'ємного звуку", тому "неймовірно реалістичний 3-D-режим відтворення аудіо через динаміки або стерео навушники", ймовірно, використовує метод микширования ( від 7.1) для навушників.
Фіз

Дякую, ця відповідь була справді інформативною. Я підсумовую правильно, щоб сказати: частотна характеристика навушників намагається імітувати спотворення, яке було б створене з лобового джерела звуку, що розповсюджується навколо вашого обличчя та у ваших вушних каналах, а ідеально рівна частотна характеристика звучить «неприродно»?
Егрик

Поки що мало незрозуміло, що якщо вони застосовуватимуть зворотну трансформацію, то метою знову буде плоска лінія 0dB по всьому спектру частот, яка теоретично може бути введена через еквалайзер (в ідеалі попереднє посилення). Будь-які думки про те, чому активні виробники навушників не роблять цього, щоб мати виправлення викривлення після викривлення плоскою 0dB або, можливо, продавати спеціальні підсилювачі для навушників із ними, які застосовують цей еквівалент, як Sennheiser Orpheus, але, можливо, менше ніж за 30 000 доларів ? Вони, здавалося б, були ідеальними навушниками тоді ...
Егрик

4

Проста відповідь полягає в тому, що плоска частотна характеристика, побудована з підсилювачами для корекції реакції водія, обов'язково матиме дуже неплоску фазову характеристику в смузі проходження. Ця неплощина означає, що компоненти частот перехідних звуків стають нерівномірно затримкою, що призводить до тонкого перехідного спотворення, що перешкоджає правильному розпізнаванню звукових компонентів, що означає меншу кількість чітких звуків.

Отже, це звучить жахливо. Ніби весь звук виходить від нечіткої кулі, зосередженої рівно між вухами.

Проблема HRTF у відповіді вище є лише частиною цього, інша полягає в тому, що реалізована аналогова схема домену може мати лише відповідь на причину часу, а для правильного виправлення драйвера потрібен фільтр причинного зв'язку.

Це можна зблизити в цифровому вигляді за допомогою фільтра Кінцевого імпульсного реагування, відповідного драйверу, але для цього потрібна невелика затримка в часі, що достатньо для того, щоб фільми були дуже непридатними для синхронізації.

І все ще звучить так, ніби він надходить всередину вашої голови, якщо тільки HRTF також не буде доданий назад.

Отже, зрештою, це не так просто.

Щоб створити "прозору" систему, вам не потрібно просто плоску смугу пропускання через слуховий діапазон людини, вам також потрібна лінійна фаза - графік затримки плоскої групи - і є деякі свідчення, які дозволяють припустити, що ця лінійна фаза потребує продовжувати на дивовижно високій частоті, щоб не було втрачено спрямованих сигналів.

Це легко перевірити експериментом: відкрийте .wav частини музики, з якою ви знайомі, в редакторі звукових файлів, наприклад Audacity або snd, і видаліть один єдиний зразок 44100 Гц з одного каналу, а другий канал вирівняйте так, щоб перший зразок тепер відбувається з другим каналом, відредагованим, і відтворити його.

Ви почуєте дуже помітну різницю, незважаючи на те, що різниця - це затримка у часі лише на 1/44100-ту секунду.

Враховуйте це: звук іде близько 340 мм / мс, тому при 20 кГц це помилка часу плюс мінус одна затримка зразка або 50 мікросекунд. Це 17 мм ходу звуку, але ви можете почути різницю з відсутністю 22,67 мікросекунд, що становить лише 7,7 мм ходу звуку.

Абсолютне відключення слуху людини зазвичай вважається приблизно 20 кГц, так що ж відбувається?

Відповідь полягає в тому, що тести слуху проводяться з тестовими тонами, які в основному складаються лише з однієї частоти, протягом досить тривалого часу в кожній частині тесту. Але наші внутрішні вуха складаються з фізичної структури, яка виконує своєрідний FFT на звук, піддаючи йому нейрони, так що нейрони в різних положеннях співвідносяться з різними частотами.

Окремі нейрони можуть повторно стріляти лише так швидко, тому в деяких випадках деякі використовуються один за одним, щоб не відставати ... але це працює лише до приблизно 4 кГц або близько того ... Це саме там, де наші сприйняття тону закінчується. Але в мозку немає нічого, щоб зупинити випал нейрона, коли він відчуває себе таким схильним, і яка найвища частота має значення?

Справа в тому, що крихітна різниця фаз між вухами помітна, але замість того, щоб змінити те, як ми визначаємо звуки (за їх спектрографічною будовою), це впливає на те, як ми сприймаємо їх напрямок. (що HRTF також змінюється!) Навіть незважаючи на те, що, здається, його слід "відкотити" поза нашим слуханням.

Відповідь полягає в тому, що точка -3 дБ або навіть -10 дБ все ще занадто низька - вам потрібно перейти до точки -80 дБ, щоб отримати все. І якщо ви хочете обробляти гучний звук, а також тихий, то вам потрібно бути хорошим до -100 дБ. Який тест прослуховування єдиного тону навряд чи колись побачить, значною мірою тому, що такі частоти "рахуються" лише тоді, коли вони приходять у фазу з іншими гармоніками як частина різкого перехідного звуку - їхня енергія в цьому випадку додається разом, досягаючи достатньої концентрації викликати нейронну відповідь, навіть якщо окремі частотні компоненти в ізоляції вони можуть бути занадто малі для підрахунку.

Інша проблема полягає в тому, що ми так чи інакше постійно бомбардуємось багатьма джерелами ультразвукового шуму, ймовірно, значною мірою від зламаних нейронів у власних внутрішніх вухах, пошкоджених надмірним рівнем звуку в якийсь попередній момент у нашому житті. Важко було б розрізнити ізольований вихідний тон прослуховування над таким гучним "місцевим" шумом!

Тому для «прозорого» проектування системи потрібно використовувати набагато більш високу частоту низьких частот, щоб людський низький прохід міг згасати (маючи власну фазову модуляцію, до якої ваш мозок вже «відкалібрований») перед системою фазова модуляція починає змінювати форму перехідних процесів і переміщувати їх навколо часу, щоб мозок вже не міг розпізнати, до якого звуку вони належать.

З навушниками набагато простіше побудувати їх, щоб мати єдиний широкосмуговий драйвер з достатньою пропускною здатністю, і покластися на дуже високу природну частоту відгуку "некоректованого" драйвера, щоб запобігти тимчасовим спотворенням. Це набагато краще працює із навушниками, оскільки невелика маса водія добре піддається цій умові.

Причина необхідності фазової лінійності глибоко вкорінена у подвійності частоти доменних часових областей, тому що ви не можете побудувати фільтр з нульовою затримкою, який може «ідеально виправити» будь-яку реальну фізичну систему.

Причина, що важлива саме "фазова лінійність", а не "фазова площинність", полягає в тому, що загальний нахил фазової кривої не має значення - за подвійністю будь-який фазовий нахил є рівнозначним постійній затримці в часі.

Зовнішнє вухо у кожного має різну форму, і, отже, різну функцію передачі, що відбувається з дещо різними частотами. Ваш мозок звик до того, що має, маючи власні чіткі резонанси. Якщо ви використовуєте неправильний, він насправді буде звучати гірше, тому що виправлення, які звик робити ваш мозок, більше не будуть відповідати тим, які знаходяться у функції передачі навушників, і у вас виникне щось гірше, ніж відсутність скасування резонансу - у вас буде вдвічі більше неврівноважених полюсів / нулів, що захаращують фазову затримку, і ви повністю керуєте груповими затримками та компонентами, що надходять до часу.

Це буде звучати дуже незрозуміло, і ви не зможете розрізати просторові зображення, закодовані записом.

Якщо ви зробите тест прослуховування A / B, усі виберуть непоправлені навушники, які, принаймні, не настільки сильно затягнуть групу, щоб їх мізки змогли перетворитись на них.

І саме тому активні навушники не намагаються зрівнятися. Це просто занадто важко, щоб отримати право.

Це також є причиною того, що саме для цифрової корекції кімнати є така ніша. Тому що для її правильного використання потрібні часті вимірювання, які важко / неможливо зробити наживо та про які споживачі взагалі не хочуть знати.

Переважно тому, що акустичні резонанси в приміщенні, що перебуває під корекцією, які в основному є частиною басової реакції, постійно зміщуються, коли тиск повітря, температура і вологість змінюються, тим самим трохи змінюючи швидкість звуку, тим самим змінюючи резонанси від того, що вони були, коли проводили вимірювання.


Фільтрування у F domian викликає фазові спотворення. Уся фазове вирівнювання може бути використане для компенсації цього .IN теорії цифрового або аналогового може мати хорошу фазу. Цифрова в ці дні дає кращу гнучкість.
Аутист

Ах, дякую. Це дає зрозуміти, чому це не робиться в активних навушниках, які передаються аналоговим сигналом (дротові навушники). Це, здавалося б, залишає відкритою можливість для налаштування рівнів у режимі реального часу без фазових спотворень ні цифровим шляхом на джерелі (наприклад, комп’ютером чи телефоном), ні цифровим способом бездротових навушників; це все ще відкрито як можливість для "ідеально рівного" (після HRTF) відповіді?
Егрик

Ні. Має бути деяка затримка. Інакше вам буквально потрібна машина часу, оскільки єдиний спосіб виправити фазу реальної (причинної) системи, не додаючи жодної затримки, - це використовувати фільтр із точно перевернутою, антипричинною реакцією часу. А це означає, що потрібно обов'язково знати "майбутнє" сигналу, перш ніж він приземлиться в момент часу = 0.
RGD2

-1

Цікава стаття та дискусія. Ми схильні вважати теорему Найквіста - це правило, яке застосовується скрізь, і тоді ми з'ясовуємо, що це не так. Ви вимірюєте межу слуху людини до 20 кГц за допомогою синусоїд, а потім здійснюєте вибірку на частоті 44,1 або 48 кГц з впевненістю, що ви захопили все, що може почути вухо. Однак зміщення одного каналу на зразок призводить до значних змін, хоча різниця тимчасово перевищує 20 кГц.

У рухомих зображеннях ми думаємо, що око інтегрує зображення зі швидкістю кадрів вище 20 кадрів в секунду. Таким чином, фільм знімається в 24 кадрів в секунду і відтворюється з 2x затвора, щоб зменшити мерехтіння (48 кадрів в секунду); Телевізор - частота кадрів 50 або 60 Гц в залежності від регіону. Деякі з нас можуть бачити мерехтіння частоти кадрів 50 Гц, особливо якщо ми виросли з 60 Гц. Але ось де це цікаво. На конференціях Голлівудської професійної асоціації Tech Retreat і SMPTE протягом останніх кількох років було показано, що середній глядач бачить значне поліпшення якості, коли рідний кадр збільшується з 60 Гц до 120 Гц. Ще дивніше, що ті ж глядачі побачили подібне поліпшення при збільшенні частоти кадрів з 120 до 240 Гц. Nyquist сказав би нам, що якщо ми не можемо побачити частоту кадрів у 24, нам потрібно лише подвоїти частоту кадрів, щоб гарантувати захоплення всього, що може вирішити око; але тут ми в 10 разів більше частоти кадрів і все ще спостерігаємо помітні відмінності.

Очевидно, що тут відбувається більше. У випадку з зображенням руху рух на зображенні впливає на необхідну частоту кадрів. І в аудіо, я б очікував, що складність і щільність звукового пейзажу визначає необхідну роздільну здатність звуку. Всі ці звуки залежать набагато більше від їх фазової узгодженості, ніж від частоти, для забезпечення артикуляції, необхідної для отримання зображень.


Я не знайшов тут нічого, що відповіло б на це питання. Що стосується частоти вибірки та теореми відбору проб Найкіста, пов'язаного з вирівнюванням навушників?
труба

У людини немає АЦП. Слух та зір людини нічого не "випробовують", він використовує нейрони, які є своєрідною сумішшю між аналоговим та цифровим та практично безперервні. Вухо має фізичне відсікання. Зорове сприйняття також обмежене тим, наскільки швидко мозок може обробляти інформацію.
Спайк напруги
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.