Проста відповідь полягає в тому, що плоска частотна характеристика, побудована з підсилювачами для корекції реакції водія, обов'язково матиме дуже неплоску фазову характеристику в смузі проходження. Ця неплощина означає, що компоненти частот перехідних звуків стають нерівномірно затримкою, що призводить до тонкого перехідного спотворення, що перешкоджає правильному розпізнаванню звукових компонентів, що означає меншу кількість чітких звуків.
Отже, це звучить жахливо. Ніби весь звук виходить від нечіткої кулі, зосередженої рівно між вухами.
Проблема HRTF у відповіді вище є лише частиною цього, інша полягає в тому, що реалізована аналогова схема домену може мати лише відповідь на причину часу, а для правильного виправлення драйвера потрібен фільтр причинного зв'язку.
Це можна зблизити в цифровому вигляді за допомогою фільтра Кінцевого імпульсного реагування, відповідного драйверу, але для цього потрібна невелика затримка в часі, що достатньо для того, щоб фільми були дуже непридатними для синхронізації.
І все ще звучить так, ніби він надходить всередину вашої голови, якщо тільки HRTF також не буде доданий назад.
Отже, зрештою, це не так просто.
Щоб створити "прозору" систему, вам не потрібно просто плоску смугу пропускання через слуховий діапазон людини, вам також потрібна лінійна фаза - графік затримки плоскої групи - і є деякі свідчення, які дозволяють припустити, що ця лінійна фаза потребує продовжувати на дивовижно високій частоті, щоб не було втрачено спрямованих сигналів.
Це легко перевірити експериментом: відкрийте .wav частини музики, з якою ви знайомі, в редакторі звукових файлів, наприклад Audacity або snd, і видаліть один єдиний зразок 44100 Гц з одного каналу, а другий канал вирівняйте так, щоб перший зразок тепер відбувається з другим каналом, відредагованим, і відтворити його.
Ви почуєте дуже помітну різницю, незважаючи на те, що різниця - це затримка у часі лише на 1/44100-ту секунду.
Враховуйте це: звук іде близько 340 мм / мс, тому при 20 кГц це помилка часу плюс мінус одна затримка зразка або 50 мікросекунд. Це 17 мм ходу звуку, але ви можете почути різницю з відсутністю 22,67 мікросекунд, що становить лише 7,7 мм ходу звуку.
Абсолютне відключення слуху людини зазвичай вважається приблизно 20 кГц, так що ж відбувається?
Відповідь полягає в тому, що тести слуху проводяться з тестовими тонами, які в основному складаються лише з однієї частоти, протягом досить тривалого часу в кожній частині тесту. Але наші внутрішні вуха складаються з фізичної структури, яка виконує своєрідний FFT на звук, піддаючи йому нейрони, так що нейрони в різних положеннях співвідносяться з різними частотами.
Окремі нейрони можуть повторно стріляти лише так швидко, тому в деяких випадках деякі використовуються один за одним, щоб не відставати ... але це працює лише до приблизно 4 кГц або близько того ... Це саме там, де наші сприйняття тону закінчується. Але в мозку немає нічого, щоб зупинити випал нейрона, коли він відчуває себе таким схильним, і яка найвища частота має значення?
Справа в тому, що крихітна різниця фаз між вухами помітна, але замість того, щоб змінити те, як ми визначаємо звуки (за їх спектрографічною будовою), це впливає на те, як ми сприймаємо їх напрямок. (що HRTF також змінюється!) Навіть незважаючи на те, що, здається, його слід "відкотити" поза нашим слуханням.
Відповідь полягає в тому, що точка -3 дБ або навіть -10 дБ все ще занадто низька - вам потрібно перейти до точки -80 дБ, щоб отримати все. І якщо ви хочете обробляти гучний звук, а також тихий, то вам потрібно бути хорошим до -100 дБ. Який тест прослуховування єдиного тону навряд чи колись побачить, значною мірою тому, що такі частоти "рахуються" лише тоді, коли вони приходять у фазу з іншими гармоніками як частина різкого перехідного звуку - їхня енергія в цьому випадку додається разом, досягаючи достатньої концентрації викликати нейронну відповідь, навіть якщо окремі частотні компоненти в ізоляції вони можуть бути занадто малі для підрахунку.
Інша проблема полягає в тому, що ми так чи інакше постійно бомбардуємось багатьма джерелами ультразвукового шуму, ймовірно, значною мірою від зламаних нейронів у власних внутрішніх вухах, пошкоджених надмірним рівнем звуку в якийсь попередній момент у нашому житті. Важко було б розрізнити ізольований вихідний тон прослуховування над таким гучним "місцевим" шумом!
Тому для «прозорого» проектування системи потрібно використовувати набагато більш високу частоту низьких частот, щоб людський низький прохід міг згасати (маючи власну фазову модуляцію, до якої ваш мозок вже «відкалібрований») перед системою фазова модуляція починає змінювати форму перехідних процесів і переміщувати їх навколо часу, щоб мозок вже не міг розпізнати, до якого звуку вони належать.
З навушниками набагато простіше побудувати їх, щоб мати єдиний широкосмуговий драйвер з достатньою пропускною здатністю, і покластися на дуже високу природну частоту відгуку "некоректованого" драйвера, щоб запобігти тимчасовим спотворенням. Це набагато краще працює із навушниками, оскільки невелика маса водія добре піддається цій умові.
Причина необхідності фазової лінійності глибоко вкорінена у подвійності частоти доменних часових областей, тому що ви не можете побудувати фільтр з нульовою затримкою, який може «ідеально виправити» будь-яку реальну фізичну систему.
Причина, що важлива саме "фазова лінійність", а не "фазова площинність", полягає в тому, що загальний нахил фазової кривої не має значення - за подвійністю будь-який фазовий нахил є рівнозначним постійній затримці в часі.
Зовнішнє вухо у кожного має різну форму, і, отже, різну функцію передачі, що відбувається з дещо різними частотами. Ваш мозок звик до того, що має, маючи власні чіткі резонанси. Якщо ви використовуєте неправильний, він насправді буде звучати гірше, тому що виправлення, які звик робити ваш мозок, більше не будуть відповідати тим, які знаходяться у функції передачі навушників, і у вас виникне щось гірше, ніж відсутність скасування резонансу - у вас буде вдвічі більше неврівноважених полюсів / нулів, що захаращують фазову затримку, і ви повністю керуєте груповими затримками та компонентами, що надходять до часу.
Це буде звучати дуже незрозуміло, і ви не зможете розрізати просторові зображення, закодовані записом.
Якщо ви зробите тест прослуховування A / B, усі виберуть непоправлені навушники, які, принаймні, не настільки сильно затягнуть групу, щоб їх мізки змогли перетворитись на них.
І саме тому активні навушники не намагаються зрівнятися. Це просто занадто важко, щоб отримати право.
Це також є причиною того, що саме для цифрової корекції кімнати є така ніша. Тому що для її правильного використання потрібні часті вимірювання, які важко / неможливо зробити наживо та про які споживачі взагалі не хочуть знати.
Переважно тому, що акустичні резонанси в приміщенні, що перебуває під корекцією, які в основному є частиною басової реакції, постійно зміщуються, коли тиск повітря, температура і вологість змінюються, тим самим трохи змінюючи швидкість звуку, тим самим змінюючи резонанси від того, що вони були, коли проводили вимірювання.