Як інтерпретувати крок DCT у процесі вилучення MFCC?


20

У більшості завдань по обробці аудіо однією з найбільш використовуваних перетворень є MFCC (цепстральні коефіцієнти частоти Мел) .

Я в основному знаю математику, яка стоїть за MFCC: я розумію і крок фільтрабанку, і масштабування частоти Мел.

Що я не отримую - це крок DCT (дискретна косинова трансформація): Яку інформацію я отримую на цьому кроці? Яке хороше візуальне зображення цього кроку?


1
Я додав би коротке пояснення MFCC або, принаймні, посилання: en.wikipedia.org/wiki/Mel-frequency_cepstral_coefficient
якийсь робот

Відповіді:


16

Ви можете думати про DCT як про ступінь стиснення. Зазвичай з MFCC, ви берете DCT, а потім збережете лише перші кілька коефіцієнтів. Це в основному та сама причина, що DCT використовується в стисканні JPEG. DCT обрані тому, що їх граничні умови краще працюють на цих типах сигналів.

Порівняємо DCT з перетворенням Фур'є. Перетворення Фур'є складається з синусоїд, які мають ціле число циклів. Це означає, що всі функції основи Фур'є починаються та закінчуються з однаковим значенням - вони не дуже добре представляють сигнали, які починаються та закінчуються при різних значеннях. Пам'ятайте, що перетворення Фур'є передбачає періодичне розширення. Якщо ви уявляєте свій сигнал на аркуші паперу, перетворення Фур'є хоче скрутити цей аркуш у циліндр, щоб ліва і права сторони зустрічалися.

Подумайте про спектр, який має форму приблизно як лінія з негативним нахилом (що досить типово). Для перетворення Фур'є доведеться використовувати багато різних коефіцієнтів, щоб відповідати цій формі. З іншого боку, у DCT є косинуси з пів-цілими числами циклів. Наприклад, існує функція бази DCT, яка нечітко схожа на ту лінію з негативним нахилом. Він не передбачає продовження періоду (натомість рівномірне розширення), тому він зробить кращу роботу з придатності цієї форми.

Отже, давайте це складемо разом. Після того, як ви обчислили мел-частотний спектр, ви маєте уявлення про спектр, який є чутливим, подібним до того, як працює слух людини. Деякі аспекти цієї форми є більш актуальними, ніж інші. Зазвичай більш велика спектральна форма більш важлива, ніж шумні дрібні деталі в спектрі. Ви можете уявити, як намалювати плавну лінію, щоб слідувати спектральній формі, і що гладка лінія, яку ви малюєте, може розповісти вам приблизно стільки ж про сигнал.

Коли ви берете DCT і відкидаєте більш високі коефіцієнти, ви приймаєте цю спектральну форму і зберігаєте лише ті деталі, які важливіші для представлення цієї гладкої форми. Якщо ви використовували перетворення Фур'є, це не зробило б такої доброї роботи зберігати важливу інформацію в низьких коефіцієнтах.

Якщо ви думаєте про подачу MFCC як функції алгоритму машинного навчання, ці коефіцієнти нижчого порядку стануть хорошими характеристиками, оскільки вони представляють деякі прості аспекти спектральної форми, тоді як коефіцієнти вищого порядку, які ви відкидаєте, більш схожі на шум і не важливо тренуватися далі. Крім того, навчання на величинах спектру Мела, ймовірно, не було б таким хорошим, оскільки конкретна амплітуда на різних частотах менш важлива, ніж загальна форма спектру.



8

Ключ до розуміння MFCC - це на початку речення у зв’язаній зі статтею:

Вони походять від типу цепстрального зображення аудіокліпу ...

MFCC - це як перегляд спектру протоколу , цепструм .

х(т)

С(z)=Ж-1(журнал(|Ж(х(т))|2)

ЖЖ-1

Причина чіпструма є акуратною в тому, що операція з вкладеним логарифмом означає, що згортки вихідного сигналу відображаються як прості доповнення в цепстру .

Ця перевага переноситься на MFCC, хоча витяг не є настільки прямим, як у стандартних цепструмів.

Там, де MFCC відрізняється, полягає у використанні дискретного косинусного перетворення (DCT) як кінцевого перетворення замість зворотного перетворення Фур'є.

Перевага, яке має DCT перед перетворенням Фур'є, полягає в тому, що отримані коефіцієнти є реальними значеннями , що полегшує подальшу обробку та зберігання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.