Один із моїх вихідних проектів завів мене в глибокі води обробки сигналів. Як і у всіх моїх кодових проектах, які вимагають певної математики, я більш ніж радий налаштувати свій шлях до рішення, незважаючи на відсутність теоретичного обгрунтування, але в цьому випадку я цього не маю, і хотів би порадити з моєї проблеми а саме: Я намагаюся зрозуміти, коли саме сміється жива аудиторія під час телешоу.
Я витратив чимало часу на читання підходів до машинного навчання для виявлення сміху, але зрозумів, що це більше стосується виявлення індивідуального сміху. Двісті людей, які сміються одразу, матимуть набагато різні акустичні властивості, і моя інтуїція полягає в тому, що їх слід розрізнити за допомогою більш жорстоких методів, ніж нейронна мережа. Я, можливо, абсолютно помиляюся! Буду вдячний за думки з цього приводу.
Ось що я спробував поки що: я подрібнив п'ятихвилинний уривок з недавнього епізоду Saturday Night Live у два секунди кліпу. Потім я позначив ці "сміхи" або "не сміється". Використовуючи екстрактор функцій MFCC Librosa, я запустив K-Means, кластеризуючи дані, і отримав хороші результати - два кластери дуже чітко відображені на моїх мітках. Але коли я спробував перебрати більш довгий файл, прогнози не тримали води.
Що я зараз спробую: я буду більш точним щодо створення цих кліпів для сміху. Замість того, щоб робити сліпе розбиття та сортування, я збираюся їх вручну витягти, щоб жоден діалог не забруднював сигнал. Тоді я поділю їх на кліпи четвертої секунди, обчислюю MFCC, і використаю їх для тренування SVM.
Мої запитання на даний момент:
Чи є щось із цього сенсу?
Чи може тут допомогти статистика? Я прокручувався в режимі перегляду спектрограми Audacity і досить чітко бачу, де відбувається сміх. У спектрограмі потужності журналу мовлення має дуже характерний, «борознестий» вигляд. Навпаки, сміх охоплює широкий спектр частоти досить рівномірно, майже як звичайний розподіл. Можна навіть візуально відрізнити оплески від сміху за більш обмеженим набором частот, представлених оплесками. Це змушує мене думати про стандартні відхилення. Я бачу, що тут може бути корисне тест Колмогорова – Смірнова? (Ви можете бачити сміх на наведеному вище зображенні як стіна помаранчевого кольору, яка потрапляє на 45% шляху.)
Лінійна спектрограма, схоже, показує, що сміх є більш енергійним на нижчих частотах і згасає у бік більш високих частот - це означає, що він кваліфікується як рожевий шум? Якщо так, чи може це стати опорою на проблему?
Прошу вибачення, якщо я зловживав якимось жаргоном, я був у Вікіпедії зовсім небагато цього і не здивуюся, якби я трохи змішався.