Чому ми вибираємо 44,1 кГц як частоту дискретизації запису?

21

Вуха людей можуть чути звук, частота якого становить від 20 Гц до 20 кГц. Виходячи з теореми Найкіста, частота запису повинна бути не менше 40 кГц. Чи це причина вибору 44,1 кГц?

audio sampling

— new_comer_forever
джерело

4

Він був обраний для сумісності з частотою кадрів відео. Дивіться en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F

— endolith

Частоти понад 12-15 кб додають мало значення або взагалі не мають значення. Більшість людей старше 40 років матиме мало корисної корисності.

— Кріс Хіт

32

Це правда, що, як і будь-яка конвенція, вибір 44,1 кГц є свого роду історичною аварією. Є кілька інших історичних причин.

Звичайно, частота дискретизації повинна перевищувати 40 кГц, якщо ви хочете високоякісного аудіо з пропускною здатністю 20 кГц.

Була дискусія про те, щоб зробити його 48,0 кГц (це було цілком узгоджено з 24 кадрами в секунду і нібито 30 кадрів / секунду в північноамериканському телебаченні), але, враховуючи фізичний розмір 120 мм, було обмежено кількість даних Компакт-диск міг би вмістити, і враховуючи, що потрібна схема виявлення та виправлення помилок і що вимагає деякої надмірності даних, обсяг логічних даних, які CD може зберігати (приблизно 700 Мб), становить приблизно половину від кількості фізичних даних. Враховуючи все це, зі швидкістю 48 кГц, нам сказали, що він не може утримувати весь 9 Бетховена, але що він може тримати весь 9-й на одному диску з дещо повільнішою швидкістю. Таким чином, 48 кГц вийшов.

І все-таки, чому 44,1, а не 44,0 чи 45,0 кГц чи якийсь хороший круглий номер?

Тоді в кінці 1970-х років існував продукт під назвою Sony F1, який був розроблений для запису цифрового аудіо на доступну відеокасету (Betamax, а не VHS). Це було на рівні 44,1 кГц (а точніше 44,056 кГц). Таким чином, це полегшить передачу записів без перекомпонування та інтерполяції з F1 на CD або в інший бік.

Я розумію, як це дістається, що частота горизонтального сканування телевізора NTSC становила 15,750 кГц, а 44,1 кГц - рівно в 2,8 рази більше, ніж це. Я не зовсім впевнений, але я вважаю, що це означає, що ви можете мати три пари стерео зразків на горизонтальну лінію, а на кожні 5 рядків, де у вас зазвичай 15 зразків, є 14 зразків плюс один додатковий зразок для деяких перевірка парності або надмірність у F1. 14 проб на 5 ліній - це 2,8 проби на горизонтальну лінію та 15,750 рядків в секунду, що становить 44 100 проб за секунду.

Тепер, з моменту появи кольорового телевізора, їм довелося трохи зменшити швидкість горизонтальної лінії до 15734 рядків в секунду. Це регулювання призводить до отримання 44 056 проб в секунду в Sony F1.

— Роберт Брістоу-Джонсон
джерело

8

Погляньте, наприклад, http://www1.cs.columbia.edu/~hgs/audio/44.1.html . Вам слід використовувати частоту дискретизації понад 40 кГц через фільтри, що не згладжуються. У вас повинен бути запас частоти, щоб запобігти спотворенням сигналу через нахил відкликання фільтра. Фактичне значення 44,1 кГц було запропоновано корпорацією Sony, коли стандарт звукозапису обговорювався в 1979 році. Вони на цей момент широко використовували цю частоту.

Так це загалом історична причина.

— Серж
джерело

6

Під час переходу до цифрових форматів звук зберігався у формі псевдо-відеосигналу, який можна розглядати як чорний або білий (представляє двійковий формат).

Швидкість та структура поля, використовувана телевізійним стандартом, така для 60 Гц відео: 245 рядків на поле (виключаючи перші 35 проміжок). З трьома зразками на лінію, що становить 60 х 245 х 3 = 44100 = 44,1 КГц.

Пізніше ця конвенція була використана для формату компакт-дисків через проблеми сумісності обладнання (першим обладнанням, яке використовувалося для виготовлення майстрів компакт-дисків, використовуваних для тиражування компакт-дисків, було відео).

Джерело: Мистецтво відтворення звуку, с. 228

— mhbuur
джерело

якщо це те, що робить F1, я повинен сказати "я стою виправлений". Я припускав, що F1 використовує порожні рядки.

— Роберт Брістоу-Джонсон

привіт, я просто прочитав тут, що "кольорове кодування NTSC використовується з телевізійним сигналом System M, який складається з 30 / 1.001 (приблизно 29,97) переплетених кадрів відео в секунду. Кожен кадр складається з двох полів, кожне з яких складається з 262,5 ліній сканування, загалом 525 ліній сканування. 483 лінії сканування складають видимий растр. Решта (вертикальний інтервал затухання) дозволяють здійснювати вертикальну синхронізацію та повторне відстеження ".

тому навіть 490 рядків використовують деякі (оригінальні NTSC) порожні рядки.

— Роберт Брістоу-Джонсон

0

Здається, обмеження чутливості для людини може бути набагато вище 20 кГц, якщо дивитись з точки зору "динамічної" роздільної здатності, а не типових статичних синусоїдальних хвиль. Також цікаві коментарі щодо запасу між 20 кГц і 22 кГц для фільтра за реконструкцією. Насправді була цікава цікава робота Пітера Крейвена щодо фільтрації, оптимізованої часовою областю, яка стверджує щонайменше 96 кГц для відтворення в режимі hi-fi.

Pawel

— Pawel
джерело

ну, є спосіб це дізнатися. Це називається « Сліпий тест AB» . не повинні бути подвійними сліпими (але, як правило, є). і тестування АВ на мою думку краще, ніж тестування ABX.

— Роберт Брістоу-Джонсон

0

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F Теорема вибірки Nyquist – Шеннона говорить, що частота дискретизації повинна бути більшою, ніж удвічі більше максимальної частоти, яку хочеться відтворити. Оскільки діапазон слуху людини становить приблизно від 20 Гц до 20000 Гц, частота дискретизації повинна бути більше 40 кГц.

Крім того, сигнали повинні бути відфільтровані до низьких частот перед відбором проб, щоб уникнути збиття. Хоча ідеальний фільтр низьких частот ідеально пропускатиме частоти нижче 20 кГц (без їх ослаблення) і ідеально відсікає частоти вище 20 кГц, такий ідеальний фільтр теоретично неможливий (це безпричинно), тому на практиці необхідний перехідний діапазон, де частоти частково ослаблені. Чим ширший цей перехідний діапазон, тим простіше і економічніше зробити фільтр проти згладжування. Частота дискретизації 44,1 кГц передбачає перехідний діапазон 2,05 кГц.

Крім того, 44 100 - це добуток квадратів перших чотирьох простих чисел (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) і, отже, має багато корисних малих факторів.

— Чжун
джерело

тож якщо ми змінимо наш одиничний час з другого на "фарг" , який становить 1,001 секунди, то що це робити з 44100 та його безліччю корисних малих факторів?

— Роберт Брістоу-Джонсон

-2

Подивіться [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone для опису. . Теорема під назвою теорема дискретизації Найквіста стверджує, що для вибірки сигналу X Гц без суттєвої втрати якості потрібно брати вибірку на частоті 2X. Межа слуху людини становить приблизно 20 кГц, тому необхідна швидкість вибірки приблизно 40 кГц. Ось чому компакт-диски відібрані у вибірці зі швидкістю 44 кГц. тобто кожна секунда запису на компакт-диску містить 44000 вимірювань максимально високої частоти, що містяться в записі.

— ааш ма
джерело

Ну, не дуже тому ...

— jojek

Частково через це. людина рідко чує більше 20 кк, тому діапазон аудіофілів досить трохи вище 40 кГц, тобто 42, 43, 44. Якщо ви дуєте когось із величезними синусоїдами в 22 к, лише дитина має шанс почути це. кажани - 115 кГц, а деякі дельфіни - на 150 кГц, за винятком того, що це у воді, що звучить чіткіше. Перевірте своє високочастотне сприйняття в режимі он-лайн із записами ... тобто тут audiocheck.net/audiotests_frequencycheckhigh.php

— зрозуміло