Нормалізація середньочерепної


15

Чи може хто-небудь пояснити, будь ласка, про нормалізацію середньої температури, як властивість еквівалентності згортки впливає на це? Чи потрібно робити CMN в розпізнаванні динаміків на базі MFCC? Чому властивість згортки є принциповою потребою у MFCC?

Я дуже новачок у цій обробці сигналів. Будь ласка, допоможіть


Чи може без використання банку фільтрів перетворення частоти безпосередньо в метковий масштаб буде працювати в процесі MFCC?
фіолетовий

Відповіді:


18

Просто, щоб все було зрозуміло - ця властивість не є принциповою, але важливою . Це принципова відмінність, коли мова йде про використання DCT замість DFT для обчислення спектру.

Чому ми робимо центральну середню норму

Під час розпізнавання динаміка ми хочемо усунути будь-які канальні ефекти (імпульсна відповідь голосового тракту, звуковий шлях, кімната тощо). За умови, що вхідний сигнал а відповідь на імпульс каналу задається h [ n ] , записаний сигнал є лінійною згорткою обох:x[n]h[n]

y[n]=x[n]h[n]

Беручи трансформацію Фур'є, ми отримуємо:

Y[f]=X[f]H[f]

завдяки властивості еквівалентності згортання та множення FT - саме тому воно є таким важливим властивістю FFT на цьому кроці .

Наступним кроком підрахунку цепструма є прийняття логарифму спектру:

Y[q]=logY[f]=log(X[f]H[f])=X[q]+H[q]

log(ab)=loga+logbq

Що таке середня норма середнього відділу?

Тепер ми знаємо, що в цепстральній області будь-які згорткові викривлення представлені додаванням. Припустимо, що всі вони нерухомі (що є сильним припущенням, оскільки голосовий тракт і реакція каналу не змінюються) і нерухома частина мови незначна. Ми можемо спостерігати, що для кожного i-го кадру правдою є:

Yi[q]=H[q]+Xi[q]

Беручи середнє значення за всі кадри, ми отримуємо

1NiYi[q]=H[q]+1NiXi[q]

Визначення різниці:

Ri[q]=Yi[q]1NjYj[q]=H[q]+Xi[q](H[q]+1NjXj[q])=Xi[q]1NjXj[q]

Ми закінчуємо наш сигнал із видаленням спотворень каналу. Розміщення всіх вище рівнянь у простій англійській мові:

  • Обчисліть цепструм
  • Віднімаємо середнє значення від кожного коефіцієнта
  • Необов'язково діліть на відхилення, щоб виконати середню норму центральної норми на відміну від віднімання.

Чи необхідна нормалізація середньочерепної?

Це не обов'язково, особливо коли ви намагаєтесь розпізнати одного спікера в одному середовищі. Насправді це може навіть погіршити ваші результати, оскільки він схильний до помилок через аддитивний шум:

y[n]=x[n]h[n]+w[n]

Y[f]=X[f]H[f]+W[f]

logY[f]=log[X[f](H[f]+W[f]X[f])]=logX[f]+log(H[f]+W[f]X[f])

У поганих умовах SNR позначений термін може перевершити оцінку.

Хоча при виконанні CMS зазвичай ви можете отримати кілька зайвих відсотків. Якщо до цього додати приріст ефективності від похідних коефіцієнтів, ви отримаєте реальний приріст швидкості розпізнавання. Остаточне рішення залежить від вас, тим більше, що для вдосконалення систем розпізнавання мовлення існує маса інших методів.


@mun: Рада, що це допомогло. Чому б не позначити відповіді на свої запитання прийнятими, щоб ви могли зняти обмеження для нових користувачів?
jojek

@mun: Вітаю! Тепер ви публікуєте більше посилань, голосуєте за запитання та відповіді + повідомлення прапорців.
jojek

дякую @jojek .. Я дуже новачок у всіх цих. Але я радий, що я вирішив свою проблему.
ман

@mun: Тоді я напевно пропоную тобі зробити швидку екскурсію
jojek

Останньою відповіддю я не можу отримати те, що насправді означає «збільшення дохідності від похідних коефіцієнтів». Чи можете ви дати просте пояснення? Велике спасибі
Shuai Wang
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.