Після мого попереднього запитання мені було цікаво, чи існують бібліотеки виявлення мовлення. Під виявленням мовлення я маю на увазі проходження звукового буфера та повернення індексу того, де починається і зупиняється мова. Отже, якщо у мене є 10 секунд вибірки аудіо на 44 кГц, я очікую масив чисел, таких як:
44000
88000
123000
190334
...
Це вказувало б, наприклад, на те, що мова починається одну секунду, а потім закінчується в двох секундах і т.д.
Я не шукаю розпізнавання мовлення, яке виписує текст із розмовного слова. На жаль, це те, що я бачу дуже багато, коли перебуваю в Google "виявлення мови".
Було б чудово, якби бібліотека була на C, C ++ або навіть на Objective-C, коли я пишу програму для iPhone.
Спасибі!