Що стосується політики розгортання в роботі AlphaGo?

Папір тут .

Політика розгортання ... - це лінійна політика softmax, заснована на швидких, поступово обчислених, локальних функціях на основі шаблону ...

Я не розумію, що таке політика розгортання та як вона стосується мережі політики вибору кроку. Будь-яке простіше пояснення?

— Привіт Світ
джерело

Здається, папір стоїть за платною

— стіною

@xeon Я не можу в цьому допомогти. Я маю повний доступ до документа, але не можу його завантажувати сюди (закони про авторські права). Можливо, Google навколо, якщо хтось ще має копію?

— HelloWorld

@xeon airesearch.com/wp-content/uploads/2016/01/…

— dsaxton

Схоже, мережа політики визначає розподіл ймовірностей над можливими рухами коли в ігровому стані . Коли програма шукає ігрове дерево, вона робить це випадковим чином, і визначає, як він здійснює цей пошук. Сподіваємось, що ця функція "направить" програму на добрі кроки, які, ймовірно, зробить сильний гравець. Це має сенс, тому що при пошуку ігрового дерева гілки, які починаються з помилок, є менш актуальними при оцінці поточної позиції на дошці щодо розумного противника. $p(a \mid s)$ $a$ $s$ $p$

Коли вони говорять, що політика розгортання (я вважаю, що вони запозичили термін "розкрутка" з нарди) є лінійною функцією softmax, вони посилаються на узагальнення сигмоподібної функції, що використовується в логістичній регресії. Ця функція приймає форму

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

де - вектор, який є функцією поточного положення дошки (згідно з папером, лінійна софтмакс використовується лише на останньому кроці мережі політики), а - вектор ваг, який разом визначає ймовірність того, що політика мережа вибере дію . $x$ $\beta_i$ $a_i$

— dsaxton
джерело