Чим зниження шуму для розпізнавання мови відрізняється від зниження шуму, яке повинно зробити мову більш зрозумілою для людини?

це питання, яке мене цікавить вже деякий час, головним чином тому, що я сам працюю над зниженням шуму для існуючої системи розпізнавання мовлення.

Більшість робіт з техніки зменшення шуму, здається, зосереджені на тому, як зробити мовлення більш зрозумілим для людини або як поліпшити розпливчасті терміни, наприклад "якість мови".

Я впевнений, що, використовуючи такі критерії, ви можете ідентифікувати фільтри, які полегшують галасливі мовні сигнали для прослуховування людей. Однак я не впевнений, що ці критерії можуть бути просто адаптовані при спробі оцінювання мовних сигналів, позначених для підвищення точності системи розпізнавання мовлення.

Я справді не знаходжу паперів, які обговорюють цю різницю. Чи співвідносяться розбірливість мови та якість мовлення з точністю систем розпізнавання мовлення? Чи існують об'єктивні заходи, за допомогою яких можна оцінити, наскільки "хорошим" позначається мовленнєвий сигнал для системи розпізнавання мовлення, наприклад, якщо також надано оригінальну чисту мову? Або це єдиний спосіб дізнатися, наскільки хороша ваша техніка зменшення шуму, навчити систему розпізнавання мови на позначених даних і переглянути точність?

Я був би радий, якби хтось міг спрямувати мене в правильне русло, або, можливо, дасть кілька паперів, які обговорюють це. Спасибі заздалегідь!

— marlonfl
джерело

Я насправді не знаходжу паперів, які обговорюють цю різницю.

Є цілі книги на цю тему:

Міцне автоматичне розпізнавання мови 1-е видання

Чи співвідносяться розбірливість мови та якість мовлення з точністю систем розпізнавання мовлення?

Зазвичай ні, зазвичай зниження шуму пошкоджує функції непередбачувано і знижує точність розпізнавання мови.

Чи існують об'єктивні заходи, за допомогою яких можна оцінити, наскільки "хорошим" позначається мовленнєвий сигнал для системи розпізнавання мовлення, наприклад, якщо також надано оригінальну чисту мову? Або це єдиний спосіб дізнатися, наскільки хороша ваша техніка зменшення шуму, навчити систему розпізнавання мови на позначених даних і переглянути точність?

Друге. Більше того, функціональне зниження шуму фактично видаляє важливу інформацію з спектру, тому ви не зможете відремонтувати точність чистої системи. З цієї причини сучасний підхід полягає у проведенні багатошарових тренувань на галасливих даних, а не заздалегідь використовувати алгоритм зниження шуму. Він закінчується більш точним розпізнаванням.

— Микола Шмирев
джерело

Дякую за відповіді Я думаю, я не шукав потрібних паперів. Я погляну на цю книгу.

— marlonfl

Гаразд, якщо ви хочете отримати папери, ви можете перевірити результати виклику CHIME-4, здебільшого - найсучасніші у надійних ASR.

— Микола Шмирев