Що стосується політики розгортання в роботі AlphaGo?


11

Папір тут .

Політика розгортання ... - це лінійна політика softmax, заснована на швидких, поступово обчислених, локальних функціях на основі шаблону ...

Я не розумію, що таке політика розгортання та як вона стосується мережі політики вибору кроку. Будь-яке простіше пояснення?


Здається, папір стоїть за платною
стіною

@xeon Я не можу в цьому допомогти. Я маю повний доступ до документа, але не можу його завантажувати сюди (закони про авторські права). Можливо, Google навколо, якщо хтось ще має копію?
HelloWorld

Відповіді:


11

Схоже, мережа політики визначає розподіл ймовірностей над можливими рухами коли в ігровому стані . Коли програма шукає ігрове дерево, вона робить це випадковим чином, і визначає, як він здійснює цей пошук. Сподіваємось, що ця функція "направить" програму на добрі кроки, які, ймовірно, зробить сильний гравець. Це має сенс, тому що при пошуку ігрового дерева гілки, які починаються з помилок, є менш актуальними при оцінці поточної позиції на дошці щодо розумного противника.a s pp(as)asp

Коли вони говорять, що політика розгортання (я вважаю, що вони запозичили термін "розкрутка" з нарди) є лінійною функцією softmax, вони посилаються на узагальнення сигмоподібної функції, що використовується в логістичній регресії. Ця функція приймає форму

eβiTxj=1keβjTx

де - вектор, який є функцією поточного положення дошки (згідно з папером, лінійна софтмакс використовується лише на останньому кроці мережі політики), а - вектор ваг, який разом визначає ймовірність того, що політика мережа вибере дію .β i a ixβiai

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.