Навчальна дорожня карта для початківця обробки аудіосигналу

13

Я хотів би почати вивчати обробку звукових сигналів. В Інтернеті є численні книги та наукові праці, які, здається, пропускають основи теми.

Я хотів би знати приблизну дорожню карту, так би мовити, дотримуватися, щоб успішно вивчити обробку звукових сигналів.

Я прочитав, що обчислення - це перший крок до початку аналізу сигналів.

Мені здається, що аналіз звукового сигналу - лише одна частина загальних знань, необхідних. Де інші теми - теорія музики, аудіотехніка та програмування.

Якщо я можу попросити людей, які мають знання в цій галузі, запропонувати можливі кроки на шляху розуміння того, як аналізувати та маніпулювати / створювати звукові сигнали.

audio

— жарид
джерело

Я погоджуюся з тим, що досвід обчислення (як мінімум) буде важливим для вас, щоб мати шанс зрозуміти математику, з якою ви можете зіткнутися в тексті або курсі теорії сигналів та систем. Я би переконався, що ви спочатку там нюхаєтесь.

— Джейсон R

1

Ці слайди можуть допомогти. Вони отримують ваші хоч деякі нематематичні / інженерні основи обробки аудіо та аудіо програмування. blog.bjornroche.com/2011/11/…

— Бьорн Рош

17

Рекомендую ознайомитись з фізичною обробкою аудіосигналу проф. Джуліус О. Сміт III . Він доступний в Інтернеті або його можна придбати через послугу друку на вимогу Amazon.

Зокрема, опис у " Огляді книжок" може бути вартим.

введіть тут опис зображення

— Петро К.
джерело

9

Я не думаю, що немає сенсу заглиблюватись у складність DFT / FFT / IIR / FIR та вейвлетів, не спершу зрозумівши, що таке аудіо в принципі та які різні способи подання аудіо в цифровому вигляді.

Що таке аудіо взагалі (у повітрі, не у воді чи інших матеріалах):

Аудіо складається з хвиль звукового тиску
Вони викликають стиснення і розрідження повітря
Ці хвилі поширюються назовні від точки джерела
Хвилі можуть заважати один одному, викликаючи вершини та жолоби
Хвилі можуть поглинатися та відбиватися матеріалами

Як звук представлений електрично:

Мікрофон та попередній підсилювач перетворюють хвилі звукового тиску в електричний сигнал
Зазвичай цей сигнал має як позитивну, так і негативну напругу (як напруги змінного струму)
Магнітні стрічки зберігають ці відмінності у міру їх появи, звідси і термін аналог
Насичення відбувається, коли сила вхідного сигналу дорівнює меж системи (більше збільшення напруги неможливо точно представити)
Відсікання відбувається, коли вхідний сигнал вище, ніж може бути представлений системою, тому сигнал стає обрізаним (або обмеженим на кінцівках)

Як звук представлений цифровим способом:

Спочатку аудіозаписи повинні бути відібрані за допомогою АЦП (аналогового цифрового перетворювача)
Вибірка включає періодичне вимірювання аудіосигналу електричним шляхом
Цей період називається частотою вибірки і він визначає найвищу частоту, яка може бути представлена (межа найквістичної форми)
Межа нейквіста - це частота вибірки / 2 (чим ближче до межі, тим слабкіше представлений сигнал)
Бітрейндж визначає рівень шуму, (-96 дБ для 16 біт проти -48 дБ для 8 біт)
Один 16-бітний зразок аудіо може бути (підписаним) значенням від -32768 до 32767 (це може представляти як негативний, так і позитивний хитання аналогового сигналу)
Доступно лише 8 біт на байт (з точки зору зберігання в комп'ютері), тому 16-бітний зразок повинен бути представлений щонайменше 2 байтами
Порядок, в якому зберігаються ці байти, називається їхнім ендіанським типом (великим або малим)
Стереопроби вимагають окремого зразка для кожного каналу, один для лівого та іншого для правого

Які різні способи використовуються для зберігання цифрового аудіо:

PCM (модульований імпульсний код) - найпоширеніший нестиснений спосіб зберігання аудіо в цифровому форматі
Існує багато стиснення, щоб зменшити кількість використовуваних даних, деякі - без втрат, деякі - втрати
Файли WAV не стискаються і можуть бути моно або стерео (переплетені зразки)
MP3-файли стискаються, втрачаються і використовують психоакустику для досягнення дуже високих показників стиснення даних
Навіть найменший діапазон бітів (1 біт) може бути корисним залежно від їх використання, як правило, подарункові картки, які відтворюють аудіо, які зберігаються як 1 біт

Як ознайомитись зі звуком у цифровій царині:

Робіть і робіть більше! Завантажте таку програму, як audacity та створюйте різні аудіофайли, використовуючи різну швидкість вибірки та діапазон бітів
Створіть синусовий / трикутний / квадратний та пилоподібний тони та почуйте відмінності
Навчіться чути різницю між типами, такими як 8-бітний 10 кГц файл та 16-бітний 44,1 кГц (якість CD)
Експериментуйте з високочастотними / низькопрохідними / смуговими фільтрами і чуйте відмінності
Натисніть сигнали за межі їх насичення, щоб зрозуміти, як відсікання впливає на звуковий сигнал
Застосовуйте конверти до сигналів, якщо ваше програмне забезпечення має таку можливість
Існує різниця між негармонічним і гармонічним викривленням, експериментуйте з обома
Скористайтеся спектрограмою (FFT), щоб побачити ці та інші сигнали, щоб ознайомитися з ними
Використовуйте як лінійні, так і логарифмічні графіки, щоб побачити відмінності
Знижуйте вибірки та збільшуйте вибірки сигналів і чуйте, як це впливає на звук
Використовуйте різні способи відмирання (при перетворенні діапазонів бітів) і чуйте відмінності

Це, сподіваємось, дасть вам зрозуміти, що таке цифровий звук та які відмінності звучать до спроби будь-якого DSP. Завжди простіше знати, що щось не так у вашому аналізі FFT, якщо ви можете визнати, що ви ввели 8-бітовий сигнал проти 16-бітового сигналу, наприклад, або що частота вибірки була пошкоджена несправним прорахунком в перетворенні.

— ronnied
джерело

Дякую за відповідь. Я знаю про ці речі, і хотів би зараз перейти до кодуючої сторони dsp.

— jarryd