Розпізнавання шаблонів для тимчасових даних


9

Я намагаюся виявити і класифікувати немовні звуки. В даний час я використовую ряд рухомих перекритих спектрів потужності від тренувальних звуків як функції, яку я шукаю.

Коли я роблю аналіз, я просто обчислюю однакову кількість перекритих спектрів, щоб кількість функцій була однаковою. Наразі продуктивність не дуже хороша, вона може виявити лише тишу проти немовчання.

Які методи існують для такого типу виявлення сигналу? Одне з моїх занепокоєнь полягає в тому, що звуки різної довжини у часовій області призводять до різної довжини функціональних векторів, тому я не можу використовувати той самий класифікатор, я застряг у цьому.

Відповіді:


3

Ви намагаєтесь виявити мовлення проти мовлення, або є класи немовних звуків, від яких ви намагаєтесь дискримінувати? Мені не ясно з вашого запитання.

Думаю, гідним першим підходом було б блокування вашого сигналу в кадрах і обчислення мелчастотних цепстральних коефіцієнтів (MFCC), а також дельта-MFCC (відмінності між суміжними кадрами MFCC) і дельта-дельта MFCC (відмінності між MFCC) в кадрах, які розташовані на два кадри один від одного). Це не єдиний спосіб зробити це, але без конкретніших знань про проблемну область це, мабуть, хороше місце для початку.

Просто googling повинен дати вам добру інформацію про те, як обчислити MFCC, якщо ви ще не знайомі з ними. В основному ви берете коефіцієнт DFT, приймаєте величини, обчислюєте енергію всередині трикутних вікон, що відповідають людському слуху, приймаєте DCT цих коефіцієнтів, по суті, як крок стиснення, а потім відкидаєте високі порядкові коефіцієнти, зазвичай беручи лише про перші дванадцять коефіцієнтів . У мене є пояснення значення кроку DCT у цій публікації: Як я інтерпретую крок DCT у процесі вилучення MFCC?

Ви можете, скажімо, використовувати ці коефіцієнти як функції для SVM.


2

Я думаю, ти, як правило, дивишся на проблему виявлення мовлення , яка існує вже назавжди, і на сьогодні існує безліч методів для цього. Схоже, цей документ , наприклад, також використовує спектральні методи, тож ви можете почати саме там. Старий добрий пошук у Google поверне багато результатів із посиланнями на статті та статті.

Зазвичай існує два дещо чіткі підходи до виявлення мовлення. Один дозволяє припустити хороше співвідношення мовлення та шуму (голос гучніший від навколишнього шуму, музики, іншого нерелевантного вмісту), а другий не робить таких припущень і намагається визначити присутність мовлення за дуже галасливими сигналами (мова закопується в шум). Залежно від того, який ви намагаєтеся зробити, ви в кінцевому підсумку подивитеся на дуже різні документи. Можливо, якщо ви трохи роз’ясніть своє запитання та деталізуєте типи мовних сигналів, з якими працюєте, цей веб-сайт може бути кориснішим.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.