Причина, чому ви бачите перетворення Фур'є, що застосовується два рази в процесі вилучення ознак, полягає в тому, що функції базуються на концепції, званій cepstrum. Cepstrum - це гра на спектрі слів - по суті, ідея полягає в перетворенні сигналу в частотну область шляхом перетворення Фур'є, а потім виконувати інше перетворення так, як ніби спектр частоти був сигналом.
Хоча частотний спектр описує амплітуду та фазу кожного діапазону частот, cepstrum характеризує зміни між частотними діапазонами. Особливості, отримані від cepstrum, краще описують мовлення, ніж функції, взяті безпосередньо з частотного спектру.
Є кілька дещо різних визначень. Спочатку перетворення цепструма визначали як перетворення Фур'є -> складний логарифм -> перетворення Фур'є [1]. Інше визначення - перетворення Фур'є -> складний логарифм -> зворотне перетворення Фур'є [2]. Мотивація останнього визначення полягає в його здатності розділяти згорнуті сигнали (людська мова часто моделюється як згортання збудження та голосового тракту).
Популярним вибором, який, як було виявлено, добре працює в системах розпізнавання мовлення, є застосування нелінійного банку фільтрів у частотній області (розмовляння, яке ви згадуєте) [3]. Конкретний алгоритм визначається як перетворення Фур'є -> квадрат величини -> банк фільтруючих розчинів -> реальний логарифм -> дискретний косинусний перетворення.
Тут DCT може бути обраний як друге перетворення, тому що для введення з реальною вартістю реальна частина DFT є різновидом DCT. Причиною, чому DCT є кращим, є те, що вихідний сигнал приблизно декоррельований. Декоррельовані функції можна ефективно моделювати як розподіл Гаусса з діагональною матрицею коваріації.
[1] Bogert, B., Healy, M., and Tukey, J. (1963). Кваліфікаційний аланіз часових рядів для відлуння: штамб, псевдоавтоковаріація, крос-штамб і сафе-крекінг. У працях симпозіуму з аналізу часових рядів, с. 209-243.
[2] Оппенгейм, А. та Шафер, Р. (1968). Гомоморфний аналіз мови. У операціях IEEE з аудіо- та електроакустики 16, стор. 221-226.
[3] Девіс, С. та Мермельштайн, П. (1980). Порівняння параметричних уявлень для розпізнавання односкладових слів у безперервно розмовних реченнях. У операціях IEEE з питань акустики, мови та обробки сигналів 28, стор. 357-366.