Функція оцінювання шахового двигуна, незалежно від того, як нейронна сітка чи явний код, завжди здатна призначити значення будь-якій позиції дошки. Якщо ви дасте йому позицію на дошці, навіть безглузді, які ніколи не трапляться в грі, вона зможе виплюнути число, що представляє, наскільки це сприятливо тому чи іншому гравцеві. Оскільки кількість позицій на дошці в шахах незрівнянно гігантська, тренування може відбуватися лише на нескінченно малій вибірці ігрового дерева. Двигун не просто згадує раніше обчислені значення положень плати, але виконує обчислення на основі розташування шматочків. Для прикладу, який не є нейронним сіткою, частиною оцінки шахового двигуна може бути складання значення кожного шматка на його стороні та віднімання загальної вартості фігур противника. Тоді,
Коли двигун не підготовлений, значення, присвоєні позиції, можуть також бути випадковими, оскільки параметри функції оцінки починаються з (зазвичай) випадкових значень. Мета тренувального етапу - коригувати параметри двигуна так, щоб він присвоював високі бали на позиціях, які є ймовірними виграшними станами для гравця.
З статті на AlphaZero (стор. 3):
Параметри глибокої нейромережі в AlphaZero навчаються методом самостійного відтворення підкріплення, починаючи з випадково ініціалізованих параметрів. У ігри грають, вибираючи ходи для обох гравців MCTS. В кінці гри, кінцеве положення визначається за правилами гри для обчислення результату гри: −1 за програш, 0 за нічию та +1 за виграш. Параметри нейронної мережі оновлюються таким чином, щоб мінімізувати помилку між передбачуваним результатом та ігровим результатом, а також максимально схожий вектор політики на вірогідність пошуку.
[математичні символи вилучені з цитати]
Підсумовуючи це, під час тренувань AlphaZero грав проти себе. Коли гра закінчена, результат гри та точність її прогнозів щодо того, як гра буде протікати, використовувались для регулювання нейронної сітки, щоб вона була більш точною під час наступної гри. AlphaZero не веде облік кожної позиції, яку він бачив, але налаштовує себе так, щоб вона змогла більш точно оцінити будь-яку дошку, яку вона побачить у майбутньому.