Я думаю, що відмінність, яку ви шукаєте, більше схожа на емпіричне проти теоретичного (на відміну від контрольованого проти непідконтрольного), але я можу помилитися з цього приводу. Іншими словами, ідеальною річчю було б мати теоретичне визначення різних жанрів, а не просто купу непрозорих даних, які можна використовувати для класифікації пісні [без реального розуміння].
Однак, для загальної жанрової класифікації ви, мабуть, застрягли, принаймні, на навчанні з прикладів, навіть якщо в першу чергу просто створити визначення жанрів. Що стосується вашого прикладу, розглянемо , як часто люди будуть стверджувати [на YouTube] по приводу того , даний трек дійсно дабстеп (наприклад , будь-який трек , який більш Dubby і менш хитким , хоча цей жанр почав без будь - якого реального коливанням). Люди визначають жанри з часом за допомогою прикладів, тому доцільно очікувати, що алгоритми, які повторюють таку поведінку, також вимагатимуть деяких прикладів. Те, як люди описують жанри, майже як векторний вектор у будь-якому разі - вони задають перелік питань щодо пісні (наприклад, вона більш зламана чи хитка? Чи є у неї велика кількість басів? Скільки часу? Який темп? Чи є вокал? тощо).
Звичайно, можливо, ви зможете вибрати список функцій, які також забезпечують інтуїтивне розуміння жанру. Така функція, як "Динамічний діапазон", - це те, що людина також може виявити на слух, але щось на кшталт "Перетин нульових часових доменів" не було б дуже інтуїтивно зрозумілим - навіть якщо це добре працює для класифікації. У наступному документі є кілька особливостей, які можуть вам бути цікавими:
Джордж Цанетакіс, Перрі Р. Кук: Музична жанрова класифікація звукових сигналів. IEEE Transactions по мови і обробка звуку 10 (5): 293-302 (2002) посилання .
Для вимірювання шорсткості, психоакустична шорсткість була б хорошим місцем для початку, але це може бути недостатньо для розмежування, наприклад, проводів дубстепа та електровідводів. Для тонкозернистих відмінностей слід звернути увагу на розпізнавання тембрів . Наступна теза має гідне опитування методик:
TH Park, “До автоматичного розпізнавання тембрів музичного інструменту”, к.т.н. дисертація, Принстонський університет, Нью-Джерсі, 2004. посилання .
Існує також модель, пов'язана з перцептивною шорсткістю в Timbre, Tuning, Spectrum і Scale, яка використовується для побудови власної шкали для довільних тембрів. Ідея полягає в тому, що гармоніки, які знаходяться дуже близько один до одного, виробляють частоти биття, які сприймаються як дисонанс. Перефразовуючи Додатки F і E ,
Коли - спектр з частками на частотах , внутрішній дисонанс [при одиниці амплітуд одиниці] дорівнюєе 1 , е 2 , . . . , ф нFf1,f2,...,fn
DF=1/2 ∑i=1n ∑j=1n d(|fi−fj|min(fi,fj))
де
d(x)=e−3.5x−e−5.75x
являє собою модель кривої Пломпа - рівня .
Він використовується для вимірювання того, наскільки приємний даний акорд щодо тембру (мінімізуючи дисонанс). Я не знаю, чи то шорсткість психоакустичної різноманітності, чи внутрішній дисонанс були б дуже корисними для ваших цілей, але вони можуть бути корисні в поєднанні з іншими показниками.
Можливо, вам буде більше удачі класифікувати тембри математично, ніж жанри. Наприклад, струни мають парні і непарні гармоніки, але кларнет має лише непарні гармоніки (пор. Хвиля Sawtooth , Square Wave ). Коливання Dubstep, як правило, виконується за допомогою фільтрів, керованих LFO (фільтрів низького проходу та / або формантів), тому щось на кшталт Spectral Flux (див. [Tzanetakis], вище) може бути гарною відправною точкою як особливість. Однак я сумніваюся, що хтось ще не вивчив математичну класифікацію коливань;)