це питання, яке мене цікавить вже деякий час, головним чином тому, що я сам працюю над зниженням шуму для існуючої системи розпізнавання мовлення.
Більшість робіт з техніки зменшення шуму, здається, зосереджені на тому, як зробити мовлення більш зрозумілим для людини або як поліпшити розпливчасті терміни, наприклад "якість мови".
Я впевнений, що, використовуючи такі критерії, ви можете ідентифікувати фільтри, які полегшують галасливі мовні сигнали для прослуховування людей. Однак я не впевнений, що ці критерії можуть бути просто адаптовані при спробі оцінювання мовних сигналів, позначених для підвищення точності системи розпізнавання мовлення.
Я справді не знаходжу паперів, які обговорюють цю різницю. Чи співвідносяться розбірливість мови та якість мовлення з точністю систем розпізнавання мовлення? Чи існують об'єктивні заходи, за допомогою яких можна оцінити, наскільки "хорошим" позначається мовленнєвий сигнал для системи розпізнавання мовлення, наприклад, якщо також надано оригінальну чисту мову? Або це єдиний спосіб дізнатися, наскільки хороша ваша техніка зменшення шуму, навчити систему розпізнавання мови на позначених даних і переглянути точність?
Я був би радий, якби хтось міг спрямувати мене в правильне русло, або, можливо, дасть кілька паперів, які обговорюють це. Спасибі заздалегідь!