Я не думаю, що немає сенсу заглиблюватись у складність DFT / FFT / IIR / FIR та вейвлетів, не спершу зрозумівши, що таке аудіо в принципі та які різні способи подання аудіо в цифровому вигляді.
Що таке аудіо взагалі (у повітрі, не у воді чи інших матеріалах):
- Аудіо складається з хвиль звукового тиску
- Вони викликають стиснення і розрідження повітря
- Ці хвилі поширюються назовні від точки джерела
- Хвилі можуть заважати один одному, викликаючи вершини та жолоби
- Хвилі можуть поглинатися та відбиватися матеріалами
Як звук представлений електрично:
- Мікрофон та попередній підсилювач перетворюють хвилі звукового тиску в електричний сигнал
- Зазвичай цей сигнал має як позитивну, так і негативну напругу (як напруги змінного струму)
- Магнітні стрічки зберігають ці відмінності у міру їх появи, звідси і термін аналог
- Насичення відбувається, коли сила вхідного сигналу дорівнює меж системи (більше збільшення напруги неможливо точно представити)
- Відсікання відбувається, коли вхідний сигнал вище, ніж може бути представлений системою, тому сигнал стає обрізаним (або обмеженим на кінцівках)
Як звук представлений цифровим способом:
- Спочатку аудіозаписи повинні бути відібрані за допомогою АЦП (аналогового цифрового перетворювача)
- Вибірка включає періодичне вимірювання аудіосигналу електричним шляхом
- Цей період називається частотою вибірки і він визначає найвищу частоту, яка може бути представлена (межа найквістичної форми)
- Межа нейквіста - це частота вибірки / 2 (чим ближче до межі, тим слабкіше представлений сигнал)
- Бітрейндж визначає рівень шуму, (-96 дБ для 16 біт проти -48 дБ для 8 біт)
- Один 16-бітний зразок аудіо може бути (підписаним) значенням від -32768 до 32767 (це може представляти як негативний, так і позитивний хитання аналогового сигналу)
- Доступно лише 8 біт на байт (з точки зору зберігання в комп'ютері), тому 16-бітний зразок повинен бути представлений щонайменше 2 байтами
- Порядок, в якому зберігаються ці байти, називається їхнім ендіанським типом (великим або малим)
- Стереопроби вимагають окремого зразка для кожного каналу, один для лівого та іншого для правого
Які різні способи використовуються для зберігання цифрового аудіо:
- PCM (модульований імпульсний код) - найпоширеніший нестиснений спосіб зберігання аудіо в цифровому форматі
- Існує багато стиснення, щоб зменшити кількість використовуваних даних, деякі - без втрат, деякі - втрати
- Файли WAV не стискаються і можуть бути моно або стерео (переплетені зразки)
- MP3-файли стискаються, втрачаються і використовують психоакустику для досягнення дуже високих показників стиснення даних
- Навіть найменший діапазон бітів (1 біт) може бути корисним залежно від їх використання, як правило, подарункові картки, які відтворюють аудіо, які зберігаються як 1 біт
Як ознайомитись зі звуком у цифровій царині:
- Робіть і робіть більше! Завантажте таку програму, як audacity та створюйте різні аудіофайли, використовуючи різну швидкість вибірки та діапазон бітів
- Створіть синусовий / трикутний / квадратний та пилоподібний тони та почуйте відмінності
- Навчіться чути різницю між типами, такими як 8-бітний 10 кГц файл та 16-бітний 44,1 кГц (якість CD)
- Експериментуйте з високочастотними / низькопрохідними / смуговими фільтрами і чуйте відмінності
- Натисніть сигнали за межі їх насичення, щоб зрозуміти, як відсікання впливає на звуковий сигнал
- Застосовуйте конверти до сигналів, якщо ваше програмне забезпечення має таку можливість
- Існує різниця між негармонічним і гармонічним викривленням, експериментуйте з обома
- Скористайтеся спектрограмою (FFT), щоб побачити ці та інші сигнали, щоб ознайомитися з ними
- Використовуйте як лінійні, так і логарифмічні графіки, щоб побачити відмінності
- Знижуйте вибірки та збільшуйте вибірки сигналів і чуйте, як це впливає на звук
- Використовуйте різні способи відмирання (при перетворенні діапазонів бітів) і чуйте відмінності
Це, сподіваємось, дасть вам зрозуміти, що таке цифровий звук та які відмінності звучать до спроби будь-якого DSP. Завжди простіше знати, що щось не так у вашому аналізі FFT, якщо ви можете визнати, що ви ввели 8-бітовий сигнал проти 16-бітового сигналу, наприклад, або що частота вибірки була пошкоджена несправним прорахунком в перетворенні.