Ви можете думати про DCT як про ступінь стиснення. Зазвичай з MFCC, ви берете DCT, а потім збережете лише перші кілька коефіцієнтів. Це в основному та сама причина, що DCT використовується в стисканні JPEG. DCT обрані тому, що їх граничні умови краще працюють на цих типах сигналів.
Порівняємо DCT з перетворенням Фур'є. Перетворення Фур'є складається з синусоїд, які мають ціле число циклів. Це означає, що всі функції основи Фур'є починаються та закінчуються з однаковим значенням - вони не дуже добре представляють сигнали, які починаються та закінчуються при різних значеннях. Пам'ятайте, що перетворення Фур'є передбачає періодичне розширення. Якщо ви уявляєте свій сигнал на аркуші паперу, перетворення Фур'є хоче скрутити цей аркуш у циліндр, щоб ліва і права сторони зустрічалися.
Подумайте про спектр, який має форму приблизно як лінія з негативним нахилом (що досить типово). Для перетворення Фур'є доведеться використовувати багато різних коефіцієнтів, щоб відповідати цій формі. З іншого боку, у DCT є косинуси з пів-цілими числами циклів. Наприклад, існує функція бази DCT, яка нечітко схожа на ту лінію з негативним нахилом. Він не передбачає продовження періоду (натомість рівномірне розширення), тому він зробить кращу роботу з придатності цієї форми.
Отже, давайте це складемо разом. Після того, як ви обчислили мел-частотний спектр, ви маєте уявлення про спектр, який є чутливим, подібним до того, як працює слух людини. Деякі аспекти цієї форми є більш актуальними, ніж інші. Зазвичай більш велика спектральна форма більш важлива, ніж шумні дрібні деталі в спектрі. Ви можете уявити, як намалювати плавну лінію, щоб слідувати спектральній формі, і що гладка лінія, яку ви малюєте, може розповісти вам приблизно стільки ж про сигнал.
Коли ви берете DCT і відкидаєте більш високі коефіцієнти, ви приймаєте цю спектральну форму і зберігаєте лише ті деталі, які важливіші для представлення цієї гладкої форми. Якщо ви використовували перетворення Фур'є, це не зробило б такої доброї роботи зберігати важливу інформацію в низьких коефіцієнтах.
Якщо ви думаєте про подачу MFCC як функції алгоритму машинного навчання, ці коефіцієнти нижчого порядку стануть хорошими характеристиками, оскільки вони представляють деякі прості аспекти спектральної форми, тоді як коефіцієнти вищого порядку, які ви відкидаєте, більш схожі на шум і не важливо тренуватися далі. Крім того, навчання на величинах спектру Мела, ймовірно, не було б таким хорошим, оскільки конкретна амплітуда на різних частотах менш важлива, ніж загальна форма спектру.