У « Конволюційних мережах глибоких переконань для масштабованого без нагляду вивчення ієрархічних уявлень » Лі та ін. al. ( PDF ) Запропоновано згортки DBN. Також метод оцінюється для класифікації зображень. Це звучить логічно, оскільки існують природні локальні особливості зображення, такі як невеликі кути та краї тощо.
У статті " Непідконтрольне функціонуванню аудіо класифікація з використанням конволюційних мереж глибокої віри " Лі та ін. ін. цей метод застосовується для аудіо в різних типах класифікацій. Ідентифікація спікера, гендерна ідентифікація, класифікація телефону, а також деякі музичні жанри / класифікації виконавців.
Як можна згорнуту частину цієї мережі інтерпретувати для звуку, як це можна пояснити для зображень як краї?