Розпізнавання математичних функцій у піснях


12

Я новачок у DSP і щойно виявив цю StackExchange, тож вибачте, якщо це не правильне місце для розміщення цього питання.

Чи є ресурс, який описує жанри в більш математичному плані? Наприклад, якщо я виконував FFT за сигналом у цьому розділі пісні (2:09, якщо посилання не починається там), чи можна мені виявити, що цей розділ має такий грубий сорт звуку? Невже подібні звуки дотримуються якоїсь математичної функції, з якою я можу порівняти? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (посилання починає відтворювати звук відразу)

Це єдиний спосіб використання контрольованих методів навчання, чи існує інший підхід (який, як правило, не вимагає нагляду)?

Дякую за будь-яку пораду.


Ви можете використовувати FFT, щоб виявити ударний удар на флейті, але не для виявлення жанру. Дуже місцевий матеріал про звук, звичайно, але не загальний музичний характер файлу.
ендоліт

Чи можна розпізнати «шорсткість» звуку? Тут MFCC приєднався?
XSL

Відповіді:


10

Я думаю, що відмінність, яку ви шукаєте, більше схожа на емпіричне проти теоретичного (на відміну від контрольованого проти непідконтрольного), але я можу помилитися з цього приводу. Іншими словами, ідеальною річчю було б мати теоретичне визначення різних жанрів, а не просто купу непрозорих даних, які можна використовувати для класифікації пісні [без реального розуміння].

Однак, для загальної жанрової класифікації ви, мабуть, застрягли, принаймні, на навчанні з прикладів, навіть якщо в першу чергу просто створити визначення жанрів. Що стосується вашого прикладу, розглянемо , як часто люди будуть стверджувати [на YouTube] по приводу того , даний трек дійсно дабстеп (наприклад , будь-який трек , який більш Dubby і менш хитким , хоча цей жанр почав без будь - якого реального коливанням). Люди визначають жанри з часом за допомогою прикладів, тому доцільно очікувати, що алгоритми, які повторюють таку поведінку, також вимагатимуть деяких прикладів. Те, як люди описують жанри, майже як векторний вектор у будь-якому разі - вони задають перелік питань щодо пісні (наприклад, вона більш зламана чи хитка? Чи є у неї велика кількість басів? Скільки часу? Який темп? Чи є вокал? тощо).

Звичайно, можливо, ви зможете вибрати список функцій, які також забезпечують інтуїтивне розуміння жанру. Така функція, як "Динамічний діапазон", - це те, що людина також може виявити на слух, але щось на кшталт "Перетин нульових часових доменів" не було б дуже інтуїтивно зрозумілим - навіть якщо це добре працює для класифікації. У наступному документі є кілька особливостей, які можуть вам бути цікавими:

Джордж Цанетакіс, Перрі Р. Кук: Музична жанрова класифікація звукових сигналів. IEEE Transactions по мови і обробка звуку 10 (5): 293-302 (2002) посилання .

Для вимірювання шорсткості, психоакустична шорсткість була б хорошим місцем для початку, але це може бути недостатньо для розмежування, наприклад, проводів дубстепа та електровідводів. Для тонкозернистих відмінностей слід звернути увагу на розпізнавання тембрів . Наступна теза має гідне опитування методик:

TH Park, “До автоматичного розпізнавання тембрів музичного інструменту”, к.т.н. дисертація, Принстонський університет, Нью-Джерсі, 2004. посилання .

Існує також модель, пов'язана з перцептивною шорсткістю в Timbre, Tuning, Spectrum і Scale, яка використовується для побудови власної шкали для довільних тембрів. Ідея полягає в тому, що гармоніки, які знаходяться дуже близько один до одного, виробляють частоти биття, які сприймаються як дисонанс. Перефразовуючи Додатки F і E ,

Коли - спектр з частками на частотах , внутрішній дисонанс [при одиниці амплітуд одиниці] дорівнюєе 1 , е 2 , . . . , ф нFf1,f2,...,fn

DF=1/2 i=1n j=1n d(|fifj|min(fi,fj))

де

d(x)=e3.5xe5.75x

являє собою модель кривої Пломпа - рівня .

Він використовується для вимірювання того, наскільки приємний даний акорд щодо тембру (мінімізуючи дисонанс). Я не знаю, чи то шорсткість психоакустичної різноманітності, чи внутрішній дисонанс були б дуже корисними для ваших цілей, але вони можуть бути корисні в поєднанні з іншими показниками.

Можливо, вам буде більше удачі класифікувати тембри математично, ніж жанри. Наприклад, струни мають парні і непарні гармоніки, але кларнет має лише непарні гармоніки (пор. Хвиля Sawtooth , Square Wave ). Коливання Dubstep, як правило, виконується за допомогою фільтрів, керованих LFO (фільтрів низького проходу та / або формантів), тому щось на кшталт Spectral Flux (див. [Tzanetakis], вище) може бути гарною відправною точкою як особливість. Однак я сумніваюся, що хтось ще не вивчив математичну класифікацію коливань;)


2
Відмінна відповідь від datageist. Я б також запропонував isophonics.net/QMVampPlugins, якщо ви шукаєте додаткову інформацію та платформу розробників із вихідним кодом
Dan Barry

@Dan Це виглядає приголомшливо, дякую за це посилання.
datageist

Я знайшов нішу, яку слід вивчати! : D Дякую за блискучу відповідь та посилання. Це вказувало мені в напрямку, а не безцільно, використовуючи Google.
XSL

Радий допомогти :)
datageist
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.