Складені автокодери та багатошарові нейронні мережі різні. На практиці ви будете мати дві мережі загальної ваги та, можливо, ділити буфери пам'яті. Тож у вашій реалізації дві мережі переплітаються.
Як правило, автокодери навчаються без нагляду, жадібним, шаровим способом. (Ніяких міток, починайте тренування лише з першого шару мережі, а потім додайте нові шари, коли ви йдете.) Ваги можна дізнатися, використовуючи різні методи, починаючи від "пакетного" градієнтного спуску (будь ласка, не робіть цього), до міні-серійного стохастичного градієнтного спуску (SGD), до квазі-ньютонських методів, таких як L-BFGS.
Ідея полягає в тому, що ваги, засвоєні без нагляду, щоб мінімізувати помилку відновлення для навчального завдання представлення, пропонують хороший вихідний пункт для ініціалізації мережі для контрольованого дискримінаційного завдання, такого як класифікація чи подібність. Тобто мережа дізнається щось про базовий розподіл, дивлячись на марковані дані, що дозволяє розрізняти мічені дані. Однак ваги все ж потрібно «налагодити» для цього нового завдання. Тому додайте логістичний регресійний шар у верхній частині мережі, а потім виконайте контрольоване навчання з міткою даних. Крок тонкої настройки дозволить здійснити градієнтний спуск і одночасно регулювати ваги для всіх шарів мережі.
Перевагами такого способу навчання нейронних сіток є:
- Непідконтрольне навчання дозволяє показувати мережі більше даних, тому що набагато простіше отримати великі набори без нагляду, ніж отримувати мітки.
- Ви можете використовувати заздалегідь підготовлену мережу як "стрибкову точку" для підготовки нових класифікаторів, тому вам не доведеться щоразу починати з нуля.
Документ див. У розділі Складені позначаючі автокодери: Вивчення корисних уявлень у глибокій мережі з локальним критерієм позначення .