Як сегментувати звук телефонних дзвінків на тишу / без тиші?

Моя проблема полягає в тому, що я не знаю енергії фонового шуму, тому я не можу просто обмежити енергію. Обробка проводиться в режимі реального часу, і у мене є близько 500 мсек для вирішення. В ідеалі, я хотів би, щоб тихі приголосні вважалися немовкою.

audio speech-recognition

— Михайло Литвин
джерело

У мене недостатньо інформації, щоб дати повну відповідь, але ваша проблема називається виявленням голосової активності . Не існує єдиного узгодженого найкращого способу зробити це, і якщо ви подивитесь, ви, мабуть, натрапите на багато різних підходів. Можливо, деякі інші зможуть розібрати це трохи більше.

— Джейсон R

@Michael Litvin, існує клас нелінійних фільтрів (використовується в "детектуванні енергії" за назвою "Teager-Kaiser". Я думаю, що це підмножина того, що відомо як "ядра вольтера". Вибачте, я не можу надати будь-які Додаткову інформацію, але якщо ви шукаєте ці слова, ви можете знайти те, що шукаєте. Я знаю, що метод Тіджера-Кайзера використовується для "коли" звуки китів починають VS просто фоновий шум.

— Spacey

Існує купа параметрів, які ви можете переглянути:

Загальна енергія
Короткочасний спектр: мова має досить відмінний "рожевий" спектр і шум (що відбувається під час немовних частин) має тенденцію до білого кольору, якщо він переважає електрично або "червоний" (тобто важкий низький частот), якщо це акустичний фон шум або шум мікрофона
Статистика амплітуди. Більшість шумових сигналів мають гауссова розподіл, мова ближче до розподілу Лапласа

Я думаю, що поєднання цих трьох має дати досить надійну схему виявлення.

— Гільмар
джерело