Метод Монте-Карло - це підхід, при якому ви генеруєте велику кількість випадкових значень або симуляцій та формуєте певні висновки на основі загальних зразків, таких як засоби та відхилення.
Як приклад, ви можете використовувати його для прогнозів погоди . Прогнозувати тривалу погоду досить складно, оскільки це хаотична система, де невеликі зміни можуть призвести до дуже різних результатів. Використовуючи методи Монте-Карло, ви могли запустити велику кількість симуляцій, кожне з дещо різними атмосферними змінами. Потім ви можете проаналізувати результати та, наприклад, обчислити ймовірність дощу в даний день на основі кількості симуляцій, які закінчилися дощем.
Що стосується використання Монте-Карло в Alpha Go, то, схоже, вони використовують так званий пошук дерев Монте-Карло . При такому підході ви робите дерево можливих рухів, кілька поворотів у майбутнє і намагаєтесь знайти найкращу послідовність. Однак, оскільки кількість можливих рухів у грі дуже велика, ви не зможете дослідити дуже далеко вперед. Це означає, що деякі кроки, які зараз виглядають добре, згодом можуть виявитися поганими.
Отже, в пошуку в дереві Монте-Карло ви вибираєте багатообіцяючу послідовність рухів і проводите одне або кілька моделювання того, як гра може протікати з цього моменту. Тоді ви можете використовувати результати цього моделювання, щоб краще зрозуміти, наскільки хороша ця конкретна послідовність рухів, і ви відповідно оновите дерево. Повторіть по мірі необхідності, поки не знайдете хороший хід.
Якщо ви хочете отримати більше інформації або переглянути деякі ілюстрації, я знайшов цікавий документ на тему: C. Browne et al., Огляд методів пошуку дерев в Монте-Карло ( відкрите сховище / постійне посилання (paywalled) )