У документах AlphaGo Zero та AlphaZero DeepMind вони описують додавання шуму Діріхле до попередніх імовірностей дій з кореневого вузла (стан плати) в дереві Монте-Карло:
Додаткова розвідка досягається додаванням шуму Діріхле до попередніх ймовірностей у кореневому вузлі конкретно , де і ; цей шум забезпечує тестування всіх рухів, але пошук все одно може перекрити погані кроки.
(AlphaGo Zero)
І:
Шум Діріхле додано до попередніх ймовірностей у кореневому вузлі; це масштабувались у зворотному співвідношенні до приблизної кількості юридичних кроків у типовій позиції, до значення для шахів, шоги та Go відповідно.
(AlphaZero)
Дві речі, яких я не розумію:
P(s, a)
є -вимірний вектор. Є стенограма для розповсюдження Діріхле с параметри, кожен зі значенням ?Я зустрічався лише з Діріхле як кон'югат перед багаточленним розподілом. Чому його тут вибрали?
Для контексту - P(s, a)
це лише один компонент розрахунку PUCT (поліноміальне верхнє дерево довіри, варіант у верхніх межах довіри) для заданого стану / дії. Він масштабується постійною та метрикою для того, скільки разів було вибрано дану дію серед своїх побратимів під час MCTS, і додається до оціночного значення дії Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .