Функція вилучення для класифікації звуку


16

Я намагаюся отримати функції із звукового файлу та класифікувати звук як належний до певної категорії (наприклад: собачий гавкіт, двигун транспортного засобу тощо). Мені хотілося б зрозуміти наступні речі:

1) Це взагалі можливо? Існують програми, які можуть розпізнавати мовлення та розрізняти різні типи гавкіт собаки. Але чи можна мати програму, яка може отримати звуковий зразок і просто сказати, що це за звук? (Припустимо, існує база даних, що містить багато зразків звуку для посилання). Зразки вхідного звуку можуть бути трохи галасливими (вхід мікрофона).

2) Я припускаю, що перший крок - вилучення функції аудіо. Ця стаття пропонує витягти MFCC і подати їх до алгоритму машинного навчання. Чи достатньо MFCC? Чи є інші функції, які зазвичай використовуються для класифікації звуку?

Спасибі за ваш час.

Відповіді:


15
  1. Довгим пострілом це доцільно - до якого розширення? Ти побачиш. Це завдання екологічної класифікації звуку не дуже добре вивчено. Також вибір парадигми машинного навчання є вирішальним - статистичний підхід чи, можливо, двійковий класифікатор? Ви можете почати з GMM, ANN та SVM - я вибираю GMM та ANN.
  2. Так, більшість людей використовують MFCC, тому що вони добре співвідносяться з тим, що насправді слухають люди, і з того часу ніхто не придумав нічого кращого. Ви також можете додати додаткові функції, такі як дескриптори MPEG-7. Необхідно виконати належну оптимізацію функцій, оскільки іноді не потрібно стільки функцій, особливо коли вони не відокремлюються. Для отримання додаткової інформації зверніться до моїх попередніх відповідей:

Особливість вилучення з спектру

Видобуток MFCC

Виявлення звуків


Я розгорну свою відповідь ввечері.
jojek

все ще чекаю розширеної відповіді ...
Нітін

Увечері ...
jojek

4

Невербальне аудіо (не кажучи вже про навколишнє середовище), здається, є маленьким братом для основного потокового машинного навчання, таких як засоби масової інформації, як зображення, мова, текст.

Щоб відповісти на ваше запитання, чи можна навчити мережу визначати заданий звук? Так! Але важко з тих же причин машинне навчання важке.

Однак те, що насправді стримує звук, і чому я називаю його маленьким братом для зображень та мови, відбувається через відсутність аудіозапису великого набору даних із масштабними масштабами. Для мови є TIMIT, для зображень є кілька ImagenNet, CIFAR, Caltech, для обробки тексту та природних мов є велика кількість літератури тощо.

Наскільки мені відомо, найбільшими двома невербальними наборами аудіоданих * з міткою * є набори даних UrbanSounds та ESC-100, які надзвичайно малі для дійсно глибоких підходів до навчання. Існує кілька опублікованих змішаних результатів на цих наборах даних за допомогою двошарових ConvNet.

Особливості MFCC - це добре налагоджене представлення базової лінії в розпізнаванні мови та аудіо аналізі в цілому. Але є багато інших представлень аудіофункцій! Цей документ дає приємну систематику типів аудіофункцій.

Сама захоплююча робота робить звук класифікації я недавно бачив, що робиться деякими людьми в DeepMind, званих WaveNet .


3

Ось рішення звукової класифікації на 10 класів: гавкіт собак, ріг автомобіля, гра дітей та ін. Він заснований на бібліотеці tensorflow з використанням нейронних мереж. Особливості отримують шляхом перетворення звукових кліпів у спектрограму


3
просто зв'язування недостатньо добре як відповідь.
Жиль

Так, розкажіть, будь ласка, про те, що йдеться про посилання.
Пітер К.

2
Але дякую за посилання все ж.
Кевін Мартін Хосе

Насправді я також намагаюся зрозуміти більше про методи, які використовуються в навчальному посібнику, наведеному у посиланні. Мої знання щодо звукових сигналів дуже обмежені, оскільки я - хлопець із комп'ютерного зору та обробки зображень. Я спробую детальніше розібратися у відповіді, коли матиму краще розуміння.
abggcv

1

Так, це надзвичайно можливо. Незважаючи на те, що NN є чудовими в такому класі класифікаційного навчання, вони можуть бути навіть не потрібні - з добре підібраним набором функцій, ймовірно, могли б зробити і класичні алгоритми кластеризації, такі як модель Гауссової суміші, або аналіз основних компонентів. . Сучасні бібліотеки можуть отримувати цей матеріал близько 95% часу або більше.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.