Чи є MFCC оптимальним методом подання музики до системи пошуку?


10

Техніка обробки сигналу, частота Cepstrum Mel , часто використовується для отримання інформації з музичного твору для використання в завданні машинного навчання. Цей метод дає короткочасний спектр потужності, а коефіцієнти використовуються як вхідні.

При проектуванні систем пошуку музики такі коефіцієнти вважаються характерними для твору (очевидно, не обов'язково унікальні, але розрізняючі). Чи є якісь характеристики, які б краще відповідали навчанню за допомогою мережі? Чи ефективніші в часі характеристики, такі як прогресування басів у творі, використаному в щось на зразок мережі Elman ?

Які характеристики б формували достатньо обширний набір, за яким класифікація могла б відбуватися?


Ви працюєте над пошуком, де шукаєте унікальні якості певного аудіокліпу? чи ви хочете визначити подібну музику?
Ендрю Розенберг

@AndrewRosenberg Більше за визначенням подібної музики.
jonsca

(Роками пізніше), існує багато способів попрацювати з MFCC; Kinunnen et al., Частотні викривлення та надійні динаміки динаміків: Порівняння альтернативних представлень мелкомасштабних даних 2013, 5p, використовують 60 коефіцієнтів. І, оптимізувати що? На якій невідкритій базі даних? Тож я б сказав (неексперт), що питання занадто широке, щоб відповідати на нього.
denis

@denis Дякую за інформацію. Це з'явилося з нещасної бета-версії машинного навчання (вперше). Я ціную, що це трохи розпливчасто.
jonsca

Відповіді:


8

Ми трохи попрацювали над цим в один момент. Набір функцій, які ми витягли, наведені в цій роботі про практикум NIPS . Я маю визнати, що ми не змогли повторити результати деяких інших авторів у цій галузі, хоча існували певні сумніви щодо наборів даних, які використовуються в них (зауважте, що набори даних, використані авторами в цьому полі, як правило, підбираються вручну і не випускаються громадськості, з міркувань авторських прав, хоча це не завжди так). По суті всі вони були короткочасними спектральними ознакамиз кинутими також коефіцієнтами авторегресії. Ми розглядали класифікацію жанру, яку, як ми знаємо, може бути зроблено людьми (хоча не з чудовою точністю і не за незгодженою згодою ....) у дуже короткі часові рамки (<1s), що підтверджує використання короткострокових особливостей . Якщо вам цікаво робити складніші речі, ніж типова класифікація жанру / виконавця / альбому / продюсера, то, можливо, вам знадобляться більш дальні функції, інакше ці короткочасні спектральні характеристики мають найкращі результати.


Яка була мета вкидання коефіцієнтів АР?
jonsca

1
@jonsca Оскільки ми використовували прискорені методи, які працюють, поєднуючи багато "слабких" учнів, ми вирішили використати будь-які функції, які можна легко обчислити, які могли б принести певну користь. Все, що потрібно слабкому школяреві, щоб воно було корисним, - це те, що він може класифікувати більше рівня шансів. Коефіцієнти AR еквівалентні стисненню спектральної оболонки, що дає деяке уявлення про короткочасну інформаційну складність музики в цьому вікні, хоча лише дуже вільно.
tdc

@tdc, "набори даних, як правило, не публікуються для громадськості ...": Ви б знали про будь-які безкоштовні набори даних в Інтернеті з мовою фонеми?
denis

@denis тільки один я знаю це одне: orange.biolab.si/datasets/phoneme.htm
ВМТ

@tdc, спасибі, але це лише 11 голосних голосів з Елементів статичного навчання, ~ 1000 х 11 функцій (стародавні LPC).
denis
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.