Я думаю, що ОП плутала AlphaGo з альфа-бета. В альфа-беті ви дійсно використовуєте політичну мережу для допомоги в обрізку, але не тут. Знову ж таки, немає обрізки, оскільки алгоритм спирається на пошук дерев Монте-Карло (MCTS).
Кожен, хто вважає, що моя відповідь занадто довгий, може перейти до підсумкового розділу, де я констатую, чому дві мережі не є зайвими.
У наступному прикладі я зроблю деяке спрощення, щоб полегшити розуміння своїх ідей.
Приклад:
Уявіть, що у вас є позиція, коли є два законних кроки. Перший хід для вас мертвий, але другий хід дає вам виграшну перевагу.
- Перший крок: вимушена втрата для вас
- Другий хід: вимушена перемога для вас
Мережа оцінювання
Припустимо, мережа оцінювання, яку надає Google, є ідеальною. Він може відмінно оцінити будь-яку позицію листа в нашому прикладі. Ми не змінимо нашу мережу цінностей у прикладі.
Щоб спростити наш приклад, припустимо, що наша мережа цінностей дає:
- -1000 для будь-якої позиції листя, яка для вас є збитком
- +1000 за будь-яку позицію листа, яка є виграшною для вас
Політична мережа
Припустимо, Google надає дві мережі політик. Ймовірності, згенеровані для нашої позиції:
- Політика 1: 0,9 для переміщення 1 та 0,1 для переміщення 2
- Політика 2: 0,2 для переміщення 1 і 0,8 для ходу 2.
Зауважте, що наша перша політика надає неправильну попередню ймовірність для нашого прикладу. Це дає 0,9 за хід 1, що є програшним кроком. Це добре, тому що навіть Google не може навчити досконалу мережу політики.
Гра з першою політикою мережі
AlphaGo повинен генерувати моделювання за допомогою Монте-Карло, і йому потрібно вибрати хід 1 або 2. Тепер AlphaGo малює рівномірну розподілену випадкову змінну, і вона вибере:
- Перемістіть 1, якщо випадкове число <= 0,9
- Перемістіть 2, якщо випадкове число> 0,9
Таким чином, AlphaGo набагато частіше вибирає програшну ходу для імітації (у першому нашому моделюванні). У нашому першому моделюванні ми також використаємо мережу значень, щоб отримати оцінку для моделювання. У статті зазначено:
Це значення складе -1000, оскільки таке моделювання призведе до втрат.
Тепер AlphaGo потрібно генерувати друге моделювання. Знову ж таки, перший крок буде набагато більш імовірним. Але врешті-решт, другий хід буде обраний тому, що:
- Наша попередня ймовірність другого ходу - 0,1, а не нуль
- AlphaGo рекомендується спробувати кроки, які мало вивчені. У роботі це робиться за цим рівнянням:
Зауважте, що N
це кількість рухів, які шукали для переміщення, і це в знаменнику. Чим більше шансів шукати наш перший хід, тим меншою є u
функція. Таким чином, ймовірність вибору нашого другого ходу покращується, оскільки AlphaGo насправді вибирає крок за цим рівнянням:
Це ключове рівняння. Будь ласка, уважно подивіться на це:
- Він має термін
P
для попередньої ймовірності (заданий мережею політики)
- Він має термін
Q
для оцінювання балів (надається мережею значень)
Тепер ми знаємо, що врешті-решт буде обраний наш другий крок. Коли це трапляється, мережа цінностей дає +1000. Це збільшиться Q
, що зробить другий крок набагато більш імовірним в наступних моделюваннях.
З огляду на достатню кількість моделювання, кількість разів, яку обирають другий хід для моделювання, повинна бути більшою, ніж кількість разів, яку обрали перший хід.
Нарешті, крок, який AlphaGo вирішив зробити, це (цитується з статті):
Після того, як пошук завершений, алгоритм вибирає найбільш відвідуваний хід з позиції кореня.
Гра з другою мережею політики
Нашій другій політичній мережі знадобиться менше ітерацій, щоб вибрати крок 2, оскільки попередня ймовірність, задана мережею політики, в першу чергу правильна.
Зауваження
Тут все дуже схоже на Bayesian
аналіз. Ми починаємо з деякої попередньої ймовірності (заданої мережею політики), потім генеруємо дані для переміщення розсіювання ймовірності (задане мережею значень).
Підсумки
- Мережа політик використовується для генерування попередніх імовірностей для визначення того, який рух слід вибрати в Монте-Карло
- Мережа значень використовується для генерації даних для перевірки мережі політики. Якщо політика в мережі погана, AlphaGo знадобиться більше обчислювальних ресурсів для зближення (якщо взагалі колись).
- Ви можете думати про це, як баєсовський аналіз