Просто, щоб все було зрозуміло - ця властивість не є принциповою, але важливою . Це принципова відмінність, коли мова йде про використання DCT замість DFT для обчислення спектру.
Чому ми робимо центральну середню норму
Під час розпізнавання динаміка ми хочемо усунути будь-які канальні ефекти (імпульсна відповідь голосового тракту, звуковий шлях, кімната тощо). За умови, що вхідний сигнал а відповідь на імпульс каналу задається h [ n ] , записаний сигнал є лінійною згорткою обох:x[n]h[n]
y[n]=x[n]⋆h[n]
Беручи трансформацію Фур'є, ми отримуємо:
Y[f]=X[f]⋅H[f]
завдяки властивості еквівалентності згортання та множення FT - саме тому воно є таким важливим властивістю FFT на цьому кроці .
Наступним кроком підрахунку цепструма є прийняття логарифму спектру:
Y[q]=logY[f]=log(X[f]⋅H[f])=X[q]+H[q]
log(ab)=loga+logbq
Що таке середня норма середнього відділу?
Тепер ми знаємо, що в цепстральній області будь-які згорткові викривлення представлені додаванням. Припустимо, що всі вони нерухомі (що є сильним припущенням, оскільки голосовий тракт і реакція каналу не змінюються) і нерухома частина мови незначна. Ми можемо спостерігати, що для кожного i-го кадру правдою є:
Yi[q]=H[q]+Xi[q]
Беручи середнє значення за всі кадри, ми отримуємо
1N∑iYi[q]=H[q]+1N∑iXi[q]
Визначення різниці:
Ri[q]=Yi[q]−1N∑jYj[q]=H[q]+Xi[q]−(H[q]+1N∑jXj[q])=Xi[q]−1N∑jXj[q]
Ми закінчуємо наш сигнал із видаленням спотворень каналу. Розміщення всіх вище рівнянь у простій англійській мові:
- Обчисліть цепструм
- Віднімаємо середнє значення від кожного коефіцієнта
- Необов'язково діліть на відхилення, щоб виконати середню норму центральної норми на відміну від віднімання.
Чи необхідна нормалізація середньочерепної?
Це не обов'язково, особливо коли ви намагаєтесь розпізнати одного спікера в одному середовищі. Насправді це може навіть погіршити ваші результати, оскільки він схильний до помилок через аддитивний шум:
y[n]=x[n]⋆h[n]+w[n]
Y[f]=X[f]⋅H[f]+W[f]
logY[f]=log[X[f](H[f]+W[f]X[f])]=logX[f]+log(H[f]+W[f]X[f])
У поганих умовах SNR позначений термін може перевершити оцінку.
Хоча при виконанні CMS зазвичай ви можете отримати кілька зайвих відсотків. Якщо до цього додати приріст ефективності від похідних коефіцієнтів, ви отримаєте реальний приріст швидкості розпізнавання. Остаточне рішення залежить від вас, тим більше, що для вдосконалення систем розпізнавання мовлення існує маса інших методів.