Я розглядав можливість класифікувати звук (наприклад, звуки тварин) за допомогою спектрограми. Ідея полягає у використанні глибоких звивистих нейронних мереж для розпізнавання сегментів у спектрограмі та виведення одного (або багатьох) міток класу. Це не нова ідея (див., Наприклад, класифікацію звуку китів або розпізнавання музичного стилю ).
Проблема, з якою я стикаюся, полягає в тому, що у мене є звукові файли різної довжини і, отже, спектрограми різного розміру. Поки що кожен підхід, який я бачив, використовує звуковий зразок фіксованого розміру, але я не можу цього зробити, оскільки мій звуковий файл може тривати 10 секунд або 2 хвилини.
Наприклад, наприклад, пташиний звук на початку та звук жаби в кінці (вихід має бути "Птах, жаба"). Моїм поточним рішенням було б додати тимчасовий компонент до нейронної мережі (створюючи більше періодичної нейронної мережі), але я хотів би поки що простий. Будь-які ідеї, посилання, навчальні посібники, ...?