Навчальна дорожня карта для початківця обробки аудіосигналу


13

Я хотів би почати вивчати обробку звукових сигналів. В Інтернеті є численні книги та наукові праці, які, здається, пропускають основи теми.

Я хотів би знати приблизну дорожню карту, так би мовити, дотримуватися, щоб успішно вивчити обробку звукових сигналів.

Я прочитав, що обчислення - це перший крок до початку аналізу сигналів.

Мені здається, що аналіз звукового сигналу - лише одна частина загальних знань, необхідних. Де інші теми - теорія музики, аудіотехніка та програмування.

Якщо я можу попросити людей, які мають знання в цій галузі, запропонувати можливі кроки на шляху розуміння того, як аналізувати та маніпулювати / створювати звукові сигнали.


Я погоджуюся з тим, що досвід обчислення (як мінімум) буде важливим для вас, щоб мати шанс зрозуміти математику, з якою ви можете зіткнутися в тексті або курсі теорії сигналів та систем. Я би переконався, що ви спочатку там нюхаєтесь.
Джейсон R

1
Ці слайди можуть допомогти. Вони отримують ваші хоч деякі нематематичні / інженерні основи обробки аудіо та аудіо програмування. blog.bjornroche.com/2011/11/…
Бьорн Рош

Відповіді:



9

Я не думаю, що немає сенсу заглиблюватись у складність DFT / FFT / IIR / FIR та вейвлетів, не спершу зрозумівши, що таке аудіо в принципі та які різні способи подання аудіо в цифровому вигляді.

Що таке аудіо взагалі (у повітрі, не у воді чи інших матеріалах):

  • Аудіо складається з хвиль звукового тиску
  • Вони викликають стиснення і розрідження повітря
  • Ці хвилі поширюються назовні від точки джерела
  • Хвилі можуть заважати один одному, викликаючи вершини та жолоби
  • Хвилі можуть поглинатися та відбиватися матеріалами

Як звук представлений електрично:

  • Мікрофон та попередній підсилювач перетворюють хвилі звукового тиску в електричний сигнал
  • Зазвичай цей сигнал має як позитивну, так і негативну напругу (як напруги змінного струму)
  • Магнітні стрічки зберігають ці відмінності у міру їх появи, звідси і термін аналог
  • Насичення відбувається, коли сила вхідного сигналу дорівнює меж системи (більше збільшення напруги неможливо точно представити)
  • Відсікання відбувається, коли вхідний сигнал вище, ніж може бути представлений системою, тому сигнал стає обрізаним (або обмеженим на кінцівках)

Як звук представлений цифровим способом:

  • Спочатку аудіозаписи повинні бути відібрані за допомогою АЦП (аналогового цифрового перетворювача)
  • Вибірка включає періодичне вимірювання аудіосигналу електричним шляхом
  • Цей період називається частотою вибірки і він визначає найвищу частоту, яка може бути представлена ​​(межа найквістичної форми)
  • Межа нейквіста - це частота вибірки / 2 (чим ближче до межі, тим слабкіше представлений сигнал)
  • Бітрейндж визначає рівень шуму, (-96 дБ для 16 біт проти -48 дБ для 8 біт)
  • Один 16-бітний зразок аудіо може бути (підписаним) значенням від -32768 до 32767 (це може представляти як негативний, так і позитивний хитання аналогового сигналу)
  • Доступно лише 8 біт на байт (з точки зору зберігання в комп'ютері), тому 16-бітний зразок повинен бути представлений щонайменше 2 байтами
  • Порядок, в якому зберігаються ці байти, називається їхнім ендіанським типом (великим або малим)
  • Стереопроби вимагають окремого зразка для кожного каналу, один для лівого та іншого для правого

Які різні способи використовуються для зберігання цифрового аудіо:

  • PCM (модульований імпульсний код) - найпоширеніший нестиснений спосіб зберігання аудіо в цифровому форматі
  • Існує багато стиснення, щоб зменшити кількість використовуваних даних, деякі - без втрат, деякі - втрати
  • Файли WAV не стискаються і можуть бути моно або стерео (переплетені зразки)
  • MP3-файли стискаються, втрачаються і використовують психоакустику для досягнення дуже високих показників стиснення даних
  • Навіть найменший діапазон бітів (1 біт) може бути корисним залежно від їх використання, як правило, подарункові картки, які відтворюють аудіо, які зберігаються як 1 біт

Як ознайомитись зі звуком у цифровій царині:

  • Робіть і робіть більше! Завантажте таку програму, як audacity та створюйте різні аудіофайли, використовуючи різну швидкість вибірки та діапазон бітів
  • Створіть синусовий / трикутний / квадратний та пилоподібний тони та почуйте відмінності
  • Навчіться чути різницю між типами, такими як 8-бітний 10 кГц файл та 16-бітний 44,1 кГц (якість CD)
  • Експериментуйте з високочастотними / низькопрохідними / смуговими фільтрами і чуйте відмінності
  • Натисніть сигнали за межі їх насичення, щоб зрозуміти, як відсікання впливає на звуковий сигнал
  • Застосовуйте конверти до сигналів, якщо ваше програмне забезпечення має таку можливість
  • Існує різниця між негармонічним і гармонічним викривленням, експериментуйте з обома
  • Скористайтеся спектрограмою (FFT), щоб побачити ці та інші сигнали, щоб ознайомитися з ними
  • Використовуйте як лінійні, так і логарифмічні графіки, щоб побачити відмінності
  • Знижуйте вибірки та збільшуйте вибірки сигналів і чуйте, як це впливає на звук
  • Використовуйте різні способи відмирання (при перетворенні діапазонів бітів) і чуйте відмінності

Це, сподіваємось, дасть вам зрозуміти, що таке цифровий звук та які відмінності звучать до спроби будь-якого DSP. Завжди простіше знати, що щось не так у вашому аналізі FFT, якщо ви можете визнати, що ви ввели 8-бітовий сигнал проти 16-бітового сигналу, наприклад, або що частота вибірки була пошкоджена несправним прорахунком в перетворенні.


Дякую за відповідь. Я знаю про ці речі, і хотів би зараз перейти до кодуючої сторони dsp.
jarryd
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.