Чому це злиття виявилося корисним?
Якщо ви думаєте про спільну мережу Value / Policy, що складається з спільного компонента (шари Залишкової мережі) з компонентом Value and Policy на вершині, а не розділенням проблем, то це має більше сенсу.
Основна передумова полягає в тому, що спільна частина мережі (ResNet) забезпечує генералізацію вхідних даних на високому рівні (ігрові стани, що призводять до руху), що є хорошим вхідним поданням як для дрібних, так і для мереж політики.
У цьому випадку ми можемо значно зменшити обчислювальне навантаження, навчаючи єдиний спільний ResNet і використовуючи його для двох набагато простіших мереж, ніж навчання двох ResNets для значення та політики. У їхньому випадку тренування двох разом також покращує регуляризацію і, таким чином, створює більш міцне, загальне представлення.
Зокрема, папір Alpha Go Zero від Silver et al. , Оволодіваючи грою Go без людських знань , стверджує, що:
Поєднання політики та вартості в єдину мережу трохи зменшило точність прогнозування ходу, але зменшило помилку значення та збільшило ефективність відтворення в AlphaGo приблизно ще на 600 Ело. Частково це пов'язано з покращеною обчислювальною ефективністю, але, що важливіше, подвійна мета регулює мережу до загального представлення, яке підтримує випадки багаторазового використання.
Чи можна застосовувати цю техніку взагалі або лише в особливих випадках?
Як і звичайні компоненти в бібліотеках програмного забезпечення, це має сенс лише тоді, коли проблеми, які ви намагаєтеся вирішити, виграють від спільного представлення.
Ви можете використовувати його, якщо ви навчаєте класифікаторів для подібних завдань або навчаєте нове завдання з невеликими даними, коли у вас вже є класифікатор, який навчається на більшій схожий набір даних.
Поза Go, часто використовується для розпізнавання зображень. Глибокі заздалегідь підготовлені мережі, такі як змагання з ImageNet ILSVRC , зазвичай використовуються як вихідний пункт. Це класифікатори, які пройшли навчання (протягом тижнів!) На понад мільйон зображень.
Потім, скажімо, ви хочете створити мережу, щоб визнати улюблену марку велосипедів, ви починаєте із загального конвеєра розпізнавання зображень, що навчається на ImageNet, відсікання останніх шарів, які роблять фактичну класифікацію ("це Border Collie") і додайте невеликий новий класифікатор, щоб вибирати лише ті велосипеди, які вам важливі.
Оскільки заздалегідь підготовлений класифікатор вже пропонує зображення зображень високого рівня, які є гарними будівельними блоками для розпізнавання зображень (він класифікує 200 категорій), це економить багато тренувань і робить дуже надійним класифікатором.
Звичайно, є багато випадків, коли проблеми не мають корисних спільних уявлень і, отже, не користуються комбінованою мережею. Тим не менш, це корисний інструмент у правильних ситуаціях.
Знайдіть навчання з трансферу або багатозадачне навчання, щоб дізнатися більше про це.