Я намагаюся отримати функції із звукового файлу та класифікувати звук як належний до певної категорії (наприклад: собачий гавкіт, двигун транспортного засобу тощо). Мені хотілося б зрозуміти наступні речі:
1) Це взагалі можливо? Існують програми, які можуть розпізнавати мовлення та розрізняти різні типи гавкіт собаки. Але чи можна мати програму, яка може отримати звуковий зразок і просто сказати, що це за звук? (Припустимо, існує база даних, що містить багато зразків звуку для посилання). Зразки вхідного звуку можуть бути трохи галасливими (вхід мікрофона).
2) Я припускаю, що перший крок - вилучення функції аудіо. Ця стаття пропонує витягти MFCC і подати їх до алгоритму машинного навчання. Чи достатньо MFCC? Чи є інші функції, які зазвичай використовуються для класифікації звуку?
Спасибі за ваш час.