Шукаючи відповіді на цю проблему, я знайшов цю дошку, тому вирішив перехрестити це моє питання із Stack Overflow.
Я шукаю метод визначення схожості між звуковим сегментом і людським голосом, який виражається чисельно.
Я шукав зовсім небагато, але те, що я знайшов поки що (докладно нижче), не дуже відповідає тому, що мені потрібно:
Одним із методів є використання програмного забезпечення для розпізнавання мовлення для отримання слів із аудіо сегменту. Однак цей метод не може придумати, наскільки звук "схожий" на людську мову; він часто може сказати, чи є в аудіо слова, чи ні, але якщо немає певних слів, він не може сказати, чи закрити звук - це мати такі слова.
Приклади: Сфінкс CMU , Dragonfly , SHOUTБільш перспективний метод називається виявленням голосової активності (VAD). Однак це, як правило, має ті самі проблеми: алгоритми / програми, що використовують VAD, як правило, повертають, досягнуто чи ні поріг активності, і не має значення "подібності" до або після такого порогу. Крім того, багато хто просто шукають гучності, а не подібності до людської мови.
Приклади: Speex , слухач , FreeSWITCH
Будь-які ідеї?