Якщо людина може чути лише звук частоти до 20 кГц, чому музичне звукове відбір проб на частоті 44,1 кГц?

60

Десь я читав, що музика в основному дискретизується на 44,1 кГц, тоді як ми можемо чути лише до 20 кГц. Чому це?

audio sampling nyquist

— Сохам Де
джерело

1

Молодші люди можуть чути більш високі частоти. Інші методи запису використовують до 48 кГц.

— Thorbjørn Ravn Andersen

15

Теорема Найквіста: вам потрібно по два зразки на кожному розмаху, щоб сказати частоту хвилі.

— mathreadler

Оскільки процесори швидші, пам'ять дешева, але хороші аналогові фільтри все ще складні, навіть більш висока частота вибірки може мати сенс (96 або 192 кГц)

— Nick T

2

@ ThorbjørnRavnAndersen Я думаю, що 48 кГц є загальним, тому що він ділиться на 24, 25 та 30 кадрів в секунду, який використовується у виробництві відео. 24 рівномірно не входить у 44100. Про це згадує Вікіпедія.

— Нік Т

4

@SohamDe Це тому, що якби ви відібрали 20 кГц звукового сигналу рівно 20 кГц, ви б нічого не почули . Зобразіть це, синусоїда, яка досягає піків кожні 1/20 000 секунди. Добре, якщо ви відбираєте це з точно такою ж швидкістю, то ви будете брати до вибірки лише вершини (або вузли, або на будь-якому рівні, у якому ви трапляєте вибірку). Отже, коли ви відтворюєте сигнал з цифрового, все, що ви отримуєте, - це рівна лінія. Ця концепція називається псевдонімом, і це дозволяє зробити вибірку принаймні вдвічі максимальною частотою, яку ви хочете почути. 44 100 Гц є зручним, тому що ділиться потужністю 2.

— MichaelK

89

Швидкість дискретизації реального сигналу повинна бути більшою, ніж вдвічі більше пропускної здатності сигналу. Аудіо практично починається від 0 Гц, тому найвища частота, присутня в аудіо, записаному на частоті 44,1 кГц, - 22,05 кГц (смуга пропускання 22,05 кГц).
Ідеальні фільтри з цегляної стіни математично неможливі, тому ми не можемо просто ідеально відрізати частоти вище 20 кГц. Додаткові 2 кГц призначені для згортання фільтрів; це "хитає кімната", в якій звук може псевдонімувати через недосконалі фільтри, але ми не можемо його почути.
Питоме значення 44,1 кГц було сумісно з частотами відеокадрів PAL та NTSC, які використовувались у той час.

Зауважте, що обґрунтування публікується у багатьох місцях: Вікіпедія: Чому 44,1 кГц?

— ендоліт
джерело

9

Привіт, я дуже погоджуюся з вашою відповіддю, але "..висока найвища частота" річ кусає початківців дуже скоро, тому що Nyquist - це пропускна здатність, а не найвища частота; Я пішов вперед і трохи змінив вашу відповідь. Перевірте, чи з вами це нормально.

— Маркус Мюллер

2

@Ruslan: Вікіпедія дуже гарна в цьому.

— jojek

2

@BrianDrummond Так редагувати це?

— ендоліт

3

@ MarcusMüller, початківець, який покусав "Nyqvist - це найвища дозволена частота", все одно покусається, шляхом зведення артефактів ... Після цього вони також зрозуміють, як будь-який діапазон частот смуги пропускання демодульований до однієї від до .

Δ f

$Δf$

0

$0$

Δ f = f_{s} / 2

$Δf = f_s/2$

— близько

1

Можливо, не вдасться визначити різницю між звуком 19,999,9 Гц з десятьма гармоніками або звуком 20 000,1 Гц з дев'ятьма, якби вони чули їх окремо, але це не означає, що перехід між ними не буде чути. Наявність фільтра з більш поступовим відключенням уникне таких проблем.

— supercat

72

44,100 було обрано компанією Sony, оскільки це добуток квадратів перших чотирьох простих чисел. Це робить його подільним за багатьма іншими цілими числами , що є корисною властивістю в цифровій вибірці.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Як ви помітили, 44100 також трохи вище межі слуху людини вдвічі. Трохи вище частина дає фільтри деяку свободу дій, тому робить їх менш дорогими (менше фішок відкидається).

Як зазначає Рассел у коментарях, ділимий на багато інших аспект цілих чисел мав негайну користь у момент вибору вибіркової швидкості. Ранній цифровий аудіо був записаний на існуючих аналогових носіях для запису відео, які підтримували, залежно від регіону, або NTSC, або PAL, відео специфікації. NTSC і PAL мали різні лінії на поле та поля в секунду, коефіцієнт LCM (разом із зразками на лінію) становить 44100 .

— дотанкоен
джерело

12

Вибір не полягав у тому, щоб отримати багато головних факторів, а конкретно для того, щоб добре використовувати обладнання для запису відео NTSC та PAL для зберігання цифрових майстрів. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment

— Рассел Борогов

3

@RussellBorogove: Дякую Відповідно до посилання Wiki, 44100 - це LCM вибіркових частот частот відеосигналів NTSC та PAL . Це цілком прямий наслідок того, що ти є числом із такою кількістю факторів, і я вважаю, що ти маєш рацію, що кінь керував візком на цій специфікації.

— dotancohen

1

Ділиться на багато чисел, але не на 8 :)

— Богдан Олександру

(Вікіпедія стверджує, що різноманітність швидкостей від 40,5 до 46,8 кГц відповідала б цим критеріям. 44,1 кГц було вибрано для забезпечення перехідної смуги для фільтр антилізингу)

— ендоліт

2

@BogdanAlexandru Також не ділиться на 1 мс кадри USB: D

— endolith

13

Швидкість Nyquist вище, ніж удвічі більша смуга частот сигналу базової смуги, який ви бажаєте зробити без двозначності (наприклад, згладжування).

Вибирайте вибірку з меншою швидкістю, ніж удвічі 20 кГц, і ви не зможете визначити різницю між дуже високими та дуже низькими частотами, лише переглядаючи зразки, завдяки псевдоніму.

Додано: Зауважте, що будь-який сигнал кінцевої довжини має нескінченну підтримку в частотній області, тому не є строго обмеженим діапазоном. Це ще одна причина, для якої потрібно відібрати вибірку будь-якого нескінченного джерела звуку трохи вище, ніж удвічі найвищого спектра частоти (в сигналі базової смуги), щоб уникнути значного згладжування (крім лише причин відключення кінцевого переходу фільтра).

— гаряча лапа2
джерело

Привіт, я дуже погоджуюся з вашою відповіддю, але "..висока найвища частота" річ кусає початківців дуже скоро, тому що Nyquist - це пропускна здатність, а не найвища частота; Я пішов вперед і трохи змінив вашу відповідь. Перевірте, чи з вами це нормально.

— Маркус Мюллер

6

@ MarcusMüller, тому що «новачки» до вибірці почати з дискретизації модулирующих сигналів , а не смуги пропускання сигналів, на самому ділі це про найвищій частоті (іноді званий «bandlimit») , а не смуги пропускання (який має додаткову невизначеність в відношенні односторонньої або двосторонньої пропускна здатність).

— Роберт Брістоу-Джонсон

@ robertbristow-johnson не розглядав цю неоднозначність. Гм; Мені подобається груповий підхід!

— Маркус Мюллер

3

У статті Вікіпедії ми називаємо це " ", і хоча Шеннон сказав, що є достатнім, він припускає кінцеву енергію, тому немає синусоїдів (які мають нескінченну енергію і можуть також ставити дельти дирака на ). якщо ви допускаєте синусоїду прямо на частоті , то це більш часто заявлений .

B

$B$

f_{s} \geq 2 B

$f_\text{s} \ge 2B$

\pm B

$\pm B$

B

$B$

f_{s} > 2 B

$f_\text{s}>2B$

— Роберт Брістоу-Джонсон

10

В основному, пропускна здатність вдвічі є загальною вимогою до вибірки сигналу, таким чином, кГц - мінімум. Потім ще трохи корисно впоратися з недосконалою фільтрацією та квантуванням . Деталі випливають. $2\times 20 = 40$

Теоретично вам потрібно не те, що потрібно на практиці. Це стосується цитати (приписується багатьом):

У теорії немає різниці між теорією та практикою. На практиці є.

Я не є спеціалістом у галузі аудіо, але мене пройшли навчання якісними людьми відбору звуку / стискання звуку. Мої знання можуть бути іржавими, прийміть це обережно.

По-перше, стандартна теорія вибірки працює за деякими припущеннями: лінійними системами та інваріацією часу. Тоді, як відомо, теоретичне явище безперервної смуги, теоретично, може бути вибіркове приблизно вдвічі більше пропускної здатності (або вдвічі більше максимальної частоти для сигналів базової смуги) без втрат. Частота "Найквіст" часто визначається як:

мінімальна швидкість, з якою сигнал може бути відібраний без введення помилок

Це частина аналізу "теореми вибірки". Важливим є "може бути". Є частина синтезу: безперервний сигнал " можна реконструювати" аналогічно за допомогою кардинальних синусів. Це не єдина методика, і вона не враховує низькочастотну попередню фільтрацію, нелінійні (такі як квантування, насичення) та інші коефіцієнти часового варіанту.

Слухання людини - це не проста тема. Прийнято вважати, що людина чує частоти від 20 Гц до 20 000 Гц. Але такі точні межі у Герца не є рисою природи для всіх людей. Поступова втрата чутливості до більш високих частот часте з віком. З іншого боку:

В ідеальних лабораторних умовах людина може чути звук аж до 12 Гц і до 28 кГц, хоча поріг різко зростає на 15 кГц у дорослих

Слух не лінійний: є пороги прослуховування та страждання . Він не інваріантний за часом. Є маскуючі ефекти як за часом, так і за частотою.

Якщо діапазон від 20 Гц до 20 000 Гц є загальним діапазоном, а теоретично 40 000 Гц теоретично вистачить, потрібно трохи додатково впоратися з додатковими спотвореннями. Основне правило говорить про те, що на 10% більше нормально (в пропускну здатність сигналу), і 44,100 Гц це просто робить. Це сягає кінця 1970-х. Чому не використовується 44 000 Гц? В основному завдяки стандартам, встановленим популярністю компакт-дисків, технологія яких як завжди базується на компромісі. Крім того, 44 100 - це добуток квадратів перших чотирьох простих чисел ( ), отже, є невеликі коефіцієнти, вигідні для обчислень (як FFT). $2.2\times$ $2^2 \times 3^2 \times 5^2 \times 7^2$

Отже, від до (і кратні), ми маємо баланс безпеки, квантування, зручності використання, обчислень та стандартів. $2\times 20$ $44.1$

Існують і інші варіанти: наприклад, формат DAT був випущений з вибіркою 48 кГц, спочатку складною конверсією. 96 кГц обговорюється щодо квантування (або бітової глибини) у якій швидкості вибірки та глибині біта я повинен використовувати? Це суперечлива тема, див. 24-бітні 48кГц-вірші 24-бітні 96 кГц . Наприклад, ви можете перевірити вибіркові ставки Audacity .

— Лоран Дюваль
джерело

2

1. Відповідь на питання полягає в тому, що теорема Найкіста диктує> 40 кГц, а не> 20 кГц. 2. Ні слух людини, ні формат CD не обмежені 20 ГГц в нижньому кінці. Будь-який достатньо великий орган труби може видавати тон 16 ГГц, а компакт-диск може легко відтворювати його. Деякі органи опускаються до 8 Гц, що починає сприйматися як індивідуальні коливання, але які знову ж таки CD можуть відтворюватися.

— користувач207421

Я згоден з вашим коментарем, за винятком "диктату" (це умова "якщо"). Не могли б ви вказати, де я відхилився від цього?

— Лоран Дюваль

1

У мене є лише одне доповнення до відповіді @LaurentDuval. Мова, музика та звук загалом - це нестаціонарні сигнали. Хоча вони фактично обмежені смугою, але ми ще не знаємо, як людське вухо передає сигнал безперервного часу на нервові вистріли, що полегшує наше сприйняття звуку. Часто стверджується, що деякі люди мають "золоті вуха" і можуть розрізняти 44,1 кГц проти 96 кГц записів. Крім того, мені ще належить підтвердити наступне: здається, що більш високі показники вибірки корисні для сприйняття додаткових сигналів, таких як локалізація в бінауральних записах.

— Неекс

0

Чому саме 44,1 кГц вже відповіли - але зосередитись на аспекті вашого питання, що стосується межі людського сприйняття, причина досить проста.

Роздільна здатність в часі має бути достатньо тонкою, щоб можна було генерувати всі можливі форми хвиль до межі, яка відчутна. Відповідно до теореми вибірки , роздільна здатність повинна бути такою, щоб частота вибірки була щонайменше вдвічі більшою за цю частоту. Інтуїтивно, на найвищій частоті, вам потрібно щонайменше 2 бали, щоб представити максимум і мінімум вашого сигналу - даючи цю квадратну хвилю Ассі-арт:

_   _
 |_| |_

— meduz
джерело

-1

Щоб вірно відтворити сигнал, чим швидше швидкість вибірки, тим краще. Вибрано ~ 40 кГц, оскільки більшість людей не можуть визначити різницю (при реконструкції) це низька швидкість вибірки. Коли було введено вибірку аудіо, пам'ять і зберігання були дорогими, а більш високі показники вибірки були недешевими.

У подвоєній верхній межі слуху людини два зразки на цикл є дуже поганою реконструкцією, навіть якщо вони відповідають критеріям Найквіста для відбору пробних сигналів, проста діаграма із зображенням синусоїди з двома зразками на цикл покаже вам, наскільки бідними є два зразки за цикл у відтворенні форми хвилі. Ви можете буквально перетворити синусоїду в квадратну хвилю; це гарна річ на 20 кГц ніхто не може сказати. Я думаю, що собака могла хоч.

— мікрофон
джерело