Зараз я працюю над відтворенням результатів цього документу . У статті вони описують спосіб використання CNN для вилучення функцій, і мають акустичну модель, яка є Dnn-hmm і перевірена за допомогою RBM.
Підрозділ III розділу A визначає різні способи подання вхідних даних. Я вирішив вертикально скласти графіки спектра статичної, дельтової та дельтової дельти.
Потім у статті описано, якою має бути мережа. Вони заявляють, що вони використовують згорткову мережу, але нічого не стосується структури мережі ?. Далі більше, чи ця мережа завжди називається згорткою? Я впевнений, що бачу будь-яку різницю в порівнянні зі звичайною мережевою згортковою нейронною мережею (cnn).
У статті зазначено це стосовно різниці:
(з розділу III підрозділу B)
Однак, складний склад відрізняється від стандартного повністю пов'язаного прихованого шару у двох важливих аспектах. По-перше, кожна згорнута одиниця отримує вхід лише з локальної області введення. Це означає, що кожен блок представляє деякі особливості локальної області вводу. По-друге, одиниці згортки можуть бути самі організовані в декілька функціональних карт, де всі одиниці в одній картці особливостей мають однакові ваги, але отримують дані з різних місць нижнього шару
Інше, що мені було цікаво - чи справді в статті зазначено, скільки вихідних параметрів потрібно для подачі акустичної моделі dnn-hmm. Я не можу, здається, розшифрувати кількість фільтрів, розміри фільтрів .. загалом про інформацію про мережу?