Виявлення частин пісні


9

Сподіваємось, це не надто суб'єктивно ...

Я шукаю певного напряму в намаганнях виявити різні "частини" пісні, незалежно від музичного стилю. Я поняття не маю, де шукати, але, довіряючи силам інших сайтів StackOverflow, я подумав, що хтось тут може допомогти вказати напрямок.

У більшості основних термінів можна було виявити різні частини пісні, просто згрупувавши послідовні повторювані шаблони і називаючи їх "частиною". Це може бути не так складно - комп'ютери досить добре виявляють повторення в сигналі, навіть коли є невеликі варіації.

Але важко, коли "частини" перекриваються, як це відбувається у більшості музики.

Важко сказати, які типи музики найбільше підходили б до цієї системи. Я б здогадався, що більшість симфонічних музик класичного стилю було б найлегше обробити.

Будь-які ідеї, де шукати дослідження в цій галузі?


Я думаю, що є додаток iPhone для розпізнавання пісні з фрагменту запису. І я думаю, що там була стаття з описом цієї програми. Мені шкода, що у мене немає посилань, але я б почав з цього.
mpiktas

1
@mpiktas: ви, мабуть, маєте на увазі такі програми, як SoundHound чи Shazam . Існує довідка про те, як працює Шазам, хоча це не надто надходить у деталі. Хоча я не впевнений, що саме це потребує ОП, це може бути хорошою відправною точкою.
nico

Для хорошого, короткі повідомлення в блозі на Shazam ( на основі, я вважаю, на білому папері), ви також можете спробувати laplacian.wordpress.com/2009/01/10/how-shazam-works
raegtin

Відповіді:


6

Я не фахівець з обробки сигналів, але дуже добре знаю теорію музики. Я б сказав, що, навпаки, класична музика, ймовірно, була б однією з найскладніших музик, яку можна проаналізувати простими математичними методами. Ви б краще почати з чогось більш простого і повторюваного, наприклад, попсу чи техно музики. Поп часто має формат вірш-приспів-вірш ... тощо, який може сприяти спрощеній версії ваших цілей.

Спробуйте скористатись перетворенням Фур'є у своїх даних, щоб розбити їх на найвизначніші частоти, можливо, ієрархічно серед різних підрозділів. Зокрема, ви можете шукати різні речі залежно від того, як ви хочете згрупувати "частини" своїх даних.

  1. Найповільніші коливання у вашій поп-музиці, ймовірно, будуть зрушеннями між віршем і хором і назад до вірша (можливо, 0,75 коливань в хвилину?).

  2. Далі ви можете виявити більш високі частотні коливання серед прогресу вашої акорди, тобто серед кожної повної міри вашої пісні (можливо, близько 6 коливань в хвилину?).

  3. Наступною найвищою частотою, на мою думку, буде планка в межах певної міри (можливо, близько 24 коливань на хвилину?), В межах якої в поп / фольклорній музиці часто повторюються заклинання та синкопація текстів.

  4. Вступаючи в деталі горіння, далі ви знайдете ритми та ритми, які повторюються в кожному бар вашої музики. Вибір та ізоляція одного із них (можливо, 148 коливань / ударів в хвилину?), Ймовірно, призведе до басового ударного удару, або до удару каучука, або щось у подібному порядку.

  5. Десь між ударами та тонами ви можете знайти швидкі стилістичні елементи вашої музики, такі як швидкість / підмітка на електричній гітарі або швидкий ритм вокального стрибка. (Я не маю уявлення, наскільки швидко вони можуть бути, але я б здогадався десь на порядку 1000 ударів в хвилину і більше).

  6. Нарешті, швидко і, мабуть, найскладніше - це елементи тону та тембру. Я знаю, що нота "середнього А" стандартизована як 440 Гц, тобто 440 коливань на секунду. Я впевнений, що існують методи розрізнення на основі якості тональності та тембру, які інструменти використовуються; є навіть досить хороші алгоритми виявлення людського вокалу. Однак, як я вже сказав, я не фахівець з обробки сигналів.


6

Музика зазвичай описується за допомогою дескрипторів MPEG7 з деякими додатковими матеріалами, такими як MFCC, розраховані на шматки шматка, зроблені деяким підходом до рухомого вікна (тобто у вас є певний розмір вікна та скачок, почніть з вікна, розміщеного на початку звуку, обчисліть дескриптори на вікні, потім перемістіть його перескоком і повторіть, поки не буде досягнуто кінця).
Таким чином шматок перетворюється на стіл; у вашому випадку це можна використовувати, щоб застосувати кластеризацію на шматки і таким чином виявити ці "частини".


Тепер це більше подобається! Гарна технічна відповідь.
Машина тужить

5

На цю тему існує безліч різноманітних методів та безліч літератур з найрізноманітніших точок зору. Ось кілька важливих моментів, які можуть стати хорошими вихідними точками для вашого пошуку.

Якщо ваш фон є більш музичним, ніж математичним чи обчислювальним, ви, можливо, зацікавитеся роботами Девіда Коупа, більшість його опублікованих праць зосереджена на аналізі творів класичної музики, але у нього є приватне підприємство, яке називається рекомбінантним, яке здається більш загальним. Багато його роботи використовували музику як моделі мовного типу, але я вважаю, що принаймні деякі з його останніх робіт більше спрямовані на весь музичний геном, як підхід. У нього є багато програмного забезпечення , доступного в Інтернеті , але це , як правило , написані на Lisp і деякі з них можуть працювати тільки в різних версіях ОС від Apple , хоча деякі мають працювати в Linux або в будь-якому місці ви можете отримати загальну шепелявість , щоб бігти.

Аналіз сигналів і музики в цілому був дуже популярною проблемою в машинному навчанні. Існує хороший початок освітлення в Крістофер Бішоп тексти нейронних мереж для розпізнавання і розпізнавання образів і машинного навчання . Ось приклад статті MSc, яка має частину музичної класифікації, але має добре висвітлення щодо вилучення можливостей, що автор наводить принаймні один із текстів Єпископа та кілька інших джерел. Він також рекомендує кілька джерел для більш актуальних робіт з цих тем.

Книги, які є більш математичними або статистичними (принаймні за їх авторством, якщо не за своїм змістом):

Оскільки я згадав Бішопа та обчислювальну перспективу машинного навчання, я розповів би лише половину історії, якщо я також не запропонував би вам поглянути на новіші Елементи статистичного навчання (які доступні для безкоштовного юридичного завантаження) від Hastie , Тібшірані та Фрідман. Я не пам’ятаю, щоб у цьому тексті конкретно був приклад обробки аудіо, але деякі розглянуті методи могли бути адаптовані до цієї проблеми.

Ще один текст, який варто розглянути, - це статистика музики Яно Берана . Це дає ряд статистичних інструментів, спеціально для аналізу музичних творів, а також має численні посилання.

Знову багато інших джерел. Багато цього залежить від того, який твій твір є і який підхід до проблеми, яка тобі найбільше подобається. Сподіваємось, принаймні дещо з цього направить вас трохи на пошуки відповіді. Якщо ви розкажете нам більше про свою історію, додаткову інформацію про проблему або задасте питання у відповідь на це повідомлення, я впевнений, що я або багато хто з інших людей тут будуть раді направити вас на більш конкретну інформацію. Удачі!


4

Не чудова відповідь, але два місця для пошуку досліджень:

Міжнародне суспільство пошуку музичної інформації має багато опублікованих праць на цю тему, дивно, скільки інформації є www.ismir.net

& Echo Nest (запуск з API, щоб зробити подібні речі) echonest.com

ОНОВЛЕННЯ: вони також випустили деякий код відбитків пальців із відкритим кодом. http://echoprint.me/


0

Мене зацікавила подібна проблема. Ось рішення. Не так давню наукову пропозицію називають сюжетним сценарієм . Детальніше дивіться у цій статті (це виглядає приємно).

Крім того, я рекомендую вам також відвідати авторський веб-сайт, оскільки в музиці існує багато подібних застосувань статистики. Під час пошуку інших подібних джерел, я рекомендую використовувати термін «Пошук музичної інформації», що включає подібні області.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.