Ви маєте рацію щодо незазначених даних. МПУ - це генеративні моделі, які найчастіше використовуються як неуправляючі учні.
При побудові мережі глибоких переконань найбільш типовою процедурою є просто навчання кожного нового КВМ по одному, коли вони складаються один на одного. Тож контрастна розбіжність не йде вгору і вниз в тому сенсі, як я думаю, ви маєте на увазі. Він працює лише з однією УЗМ за один раз, використовуючи прихований шар попереднього найвищого УЗМ в якості вхідного сигналу для нового самого верхнього УЗМ. Після всього цього ви можете або ставитись до стеку ваг RBM як до початкових ваг для стандартної нейронної мережі передачі вперед і тренуватися, використовуючи мічені вами дані та зворотне розповсюдження, або робити щось більш екзотичне, як використовувати алгоритм неспання. Зауважте, що ми не використовували жодних мічених даних до останнього кроку, що є однією з переваг цих типів моделей.
З іншого боку, існує декілька способів використання КВМ для класифікації.
- Навчіть МПУ або стек з декількох МПУ. Використовуйте верхній прихований шар як вхід для якогось іншого підконтрольного учня.
- Навчіть КУП для кожного класу та використовуйте ненормалізовані енергії як вхід до дискримінаційного класифікатора.
- Навчіть ШПМ як модель спільної щільності P (X, Y). Тоді, задавши деякий вхід x, просто виберіть клас y, який мінімізує енергетичну функцію (нормалізація тут не проблема, як у наведеному вище, оскільки константа Z однакова для всіх класів).
- Тренуйте дискримінаційну УПМ
Я б настійно пропонував вам ознайомитись з технічним звітом Практичний посібник з навчання обмежених машин Больцмана Джеффа Гінтона. Він обговорює декілька цих питань набагато детальніше, надає безцінні поради, цитує безліч релевантних робіт і може допомогти усунути будь-яку іншу плутанину, яка може виникнути.