Чому об'єднана нейронна мережа AlphaGo Zero більш ефективна, ніж дві окремі нейронні мережі?


10

AlphaGo Zero містить декілька вдосконалень порівняно з попередниками. Архітектурні деталі Alpha Go Zero можна побачити на цій шпаргалці .

Одним з таких удосконалень є використання єдиної нейронної мережі, яка одночасно обчислює ймовірності переміщення та значення стану, тоді як у старих версіях використовуються дві окремі нейронні мережі. Було показано, що об'єднана нейронна мережа є більш ефективною відповідно до статті:

Він використовує одну нейронну мережу, а не дві. Раніші версії AlphaGo використовували "мережу політики" для вибору наступного руху та "мережу цінностей" для прогнозування переможця гри з кожної позиції. Вони поєднуються в AlphaGo Zero, що дозволяє його навчити та оцінити більш ефективно.

Мені це здається протилежним інтуїтивно зрозумілим, оскільки з точки зору розробки програмного забезпечення це порушує принциповий поділ проблем . Тому мені цікаво, чому це злиття виявилося корисним.

Чи може ця методика - об’єднання різних завдань в одній нейронній мережі для підвищення ефективності - застосовуватися до інших нейронних мереж загалом чи це вимагає певних умов для роботи?

Відповіді:


6

Чому це злиття виявилося корисним?

Якщо ви думаєте про спільну мережу Value / Policy, що складається з спільного компонента (шари Залишкової мережі) з компонентом Value and Policy на вершині, а не розділенням проблем, то це має більше сенсу.

Основна передумова полягає в тому, що спільна частина мережі (ResNet) забезпечує генералізацію вхідних даних на високому рівні (ігрові стани, що призводять до руху), що є хорошим вхідним поданням як для дрібних, так і для мереж політики.

У цьому випадку ми можемо значно зменшити обчислювальне навантаження, навчаючи єдиний спільний ResNet і використовуючи його для двох набагато простіших мереж, ніж навчання двох ResNets для значення та політики. У їхньому випадку тренування двох разом також покращує регуляризацію і, таким чином, створює більш міцне, загальне представлення.

Зокрема, папір Alpha Go Zero від Silver et al. , Оволодіваючи грою Go без людських знань , стверджує, що:

Поєднання політики та вартості в єдину мережу трохи зменшило точність прогнозування ходу, але зменшило помилку значення та збільшило ефективність відтворення в AlphaGo приблизно ще на 600 Ело. Частково це пов'язано з покращеною обчислювальною ефективністю, але, що важливіше, подвійна мета регулює мережу до загального представлення, яке підтримує випадки багаторазового використання.

Чи можна застосовувати цю техніку взагалі або лише в особливих випадках?

Як і звичайні компоненти в бібліотеках програмного забезпечення, це має сенс лише тоді, коли проблеми, які ви намагаєтеся вирішити, виграють від спільного представлення.

Ви можете використовувати його, якщо ви навчаєте класифікаторів для подібних завдань або навчаєте нове завдання з невеликими даними, коли у вас вже є класифікатор, який навчається на більшій схожий набір даних.

Поза Go, часто використовується для розпізнавання зображень. Глибокі заздалегідь підготовлені мережі, такі як змагання з ImageNet ILSVRC , зазвичай використовуються як вихідний пункт. Це класифікатори, які пройшли навчання (протягом тижнів!) На понад мільйон зображень.

Потім, скажімо, ви хочете створити мережу, щоб визнати улюблену марку велосипедів, ви починаєте із загального конвеєра розпізнавання зображень, що навчається на ImageNet, відсікання останніх шарів, які роблять фактичну класифікацію ("це Border Collie") і додайте невеликий новий класифікатор, щоб вибирати лише ті велосипеди, які вам важливі.

Оскільки заздалегідь підготовлений класифікатор вже пропонує зображення зображень високого рівня, які є гарними будівельними блоками для розпізнавання зображень (він класифікує 200 категорій), це економить багато тренувань і робить дуже надійним класифікатором.

Звичайно, є багато випадків, коли проблеми не мають корисних спільних уявлень і, отже, не користуються комбінованою мережею. Тим не менш, це корисний інструмент у правильних ситуаціях.

Знайдіть навчання з трансферу або багатозадачне навчання, щоб дізнатися більше про це.


Якщо хочеться використовувати принципи інженерії програмного забезпечення для аналізу архітектури цієї нейронної мережі, я також зазначив, що залишкова блокова мережа, на якій спираються керівники цінності та політики, шанує принцип DRY. Залежно від того самого компонента (залишкової блок-мережі) для попередньої обробки даних перед передачею цих даних іншим компонентам конвеєра (значення та заголовки політики) вони гарантують, що кожен обробляє однакове представлення вихідного вводу. Дублювання цієї обробки двома окремими мережами майже гарантує розбіжність у часі.
садакацу
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.