Як зрозуміти згорнуту мережу глибоких переконань для аудіо класифікації?

11

У « Конволюційних мережах глибоких переконань для масштабованого без нагляду вивчення ієрархічних уявлень » Лі та ін. al. ( PDF ) Запропоновано згортки DBN. Також метод оцінюється для класифікації зображень. Це звучить логічно, оскільки існують природні локальні особливості зображення, такі як невеликі кути та краї тощо.

У статті " Непідконтрольне функціонуванню аудіо класифікація з використанням конволюційних мереж глибокої віри " Лі та ін. ін. цей метод застосовується для аудіо в різних типах класифікацій. Ідентифікація спікера, гендерна ідентифікація, класифікація телефону, а також деякі музичні жанри / класифікації виконавців.

Як можна згорнуту частину цієї мережі інтерпретувати для звуку, як це можна пояснити для зображень як краї?

— Петро Сміт
джерело

У кого код паперу?

9

Аудіо-додаток - це одновимірне спрощення проблеми двовимірної класифікації зображень. Фонема (наприклад) - це звуковий аналог такої функції зображення, як край або коло. У будь-якому випадку такі особливості мають суттєву локальність: вони характеризуються значеннями у відносно невеликому сусідстві з місцем зображення або моментом мови. Звитки - це контрольована, регулярна форма зваженого усереднення значень у місцевих районах. З цього випливає надія на те, що згорткова форма DBN може бути успішною у визначенні та дискримінації ознак, які мають значення.

— дзижчати
джерело

1

У випадку застосованих до аудіоданих конволюційних УЗМ автори спочатку взяли короткочасну перетворення Фур'є, а потім визначили енергетичні смуги в спектрі. Потім вони застосували згорнуті RBM на перетворене звук.

— користувач1915348
джерело