Схоже, мережа політики визначає розподіл ймовірностей над можливими рухами коли в ігровому стані . Коли програма шукає ігрове дерево, вона робить це випадковим чином, і визначає, як він здійснює цей пошук. Сподіваємось, що ця функція "направить" програму на добрі кроки, які, ймовірно, зробить сильний гравець. Це має сенс, тому що при пошуку ігрового дерева гілки, які починаються з помилок, є менш актуальними при оцінці поточної позиції на дошці щодо розумного противника.a s pp ( a ∣ s )asp
Коли вони говорять, що політика розгортання (я вважаю, що вони запозичили термін "розкрутка" з нарди) є лінійною функцією softmax, вони посилаються на узагальнення сигмоподібної функції, що використовується в логістичній регресії. Ця функція приймає форму
eβTix∑kj=1eβTjx
де - вектор, який є функцією поточного положення дошки (згідно з папером, лінійна софтмакс використовується лише на останньому кроці мережі політики), а - вектор ваг, який разом визначає ймовірність того, що політика мережа вибере дію .β i a ixβiai