Як працює "Монте-Карло"?


16

Я чув про цю концепцію в публікації Reddit про Alpha Go. Я спробував розглянути газету та статтю, але насправді не міг осмислити алгоритм.

Отже, чи може хтось дати зрозуміле пояснення того, як працює алгоритм пошуку Монте-Карло та як він використовується при побудові ігрових ботів AI?


Приємний опис алгоритму MCTS можна знайти на веб- сайті: https://towardsdatascience.com/monte-carlo-tree-search-in-reinforcement-learning-b97d3e743d0f .
nbro

Відповіді:


13

Метод Монте-Карло - це підхід, при якому ви генеруєте велику кількість випадкових значень або симуляцій та формуєте певні висновки на основі загальних зразків, таких як засоби та відхилення.

Як приклад, ви можете використовувати його для прогнозів погоди . Прогнозувати тривалу погоду досить складно, оскільки це хаотична система, де невеликі зміни можуть призвести до дуже різних результатів. Використовуючи методи Монте-Карло, ви могли запустити велику кількість симуляцій, кожне з дещо різними атмосферними змінами. Потім ви можете проаналізувати результати та, наприклад, обчислити ймовірність дощу в даний день на основі кількості симуляцій, які закінчилися дощем.

Що стосується використання Монте-Карло в Alpha Go, то, схоже, вони використовують так званий пошук дерев Монте-Карло . При такому підході ви робите дерево можливих рухів, кілька поворотів у майбутнє і намагаєтесь знайти найкращу послідовність. Однак, оскільки кількість можливих рухів у грі дуже велика, ви не зможете дослідити дуже далеко вперед. Це означає, що деякі кроки, які зараз виглядають добре, згодом можуть виявитися поганими.

Отже, в пошуку в дереві Монте-Карло ви вибираєте багатообіцяючу послідовність рухів і проводите одне або кілька моделювання того, як гра може протікати з цього моменту. Тоді ви можете використовувати результати цього моделювання, щоб краще зрозуміти, наскільки хороша ця конкретна послідовність рухів, і ви відповідно оновите дерево. Повторіть по мірі необхідності, поки не знайдете хороший хід.

Якщо ви хочете отримати більше інформації або переглянути деякі ілюстрації, я знайшов цікавий документ на тему: C. Browne et al., Огляд методів пошуку дерев в Монте-Карло ( відкрите сховище / постійне посилання (paywalled) )


Отже, головним чином, що Монте Карло робить у альфаго, це створити довгострокові стратегії, розглядаючи різні комбінації руху, а не навпаки (вибрати стратегію, а потім кроки для її досягнення)?
Дієго Антоніо Росаріо Паломіно

Тут не згадується ключовий елемент підходу Монте-Карло - стохастичний елемент, інтегрований у вибір доступних кроків для дослідження. Не згадувалося також про компроміс точності для досягнення більш тонкої обробки. Це найважливіші два аспекти і вони відсутні у відповіді. Натомість згадувалося про "велику кількість випадкових значень чи симуляцій", коли це менша кількість симуляцій від псевдовипадкових факторів (менш вичерпний пошук), характерних для конвергенції Монте-Карло.
Fauhhristian
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.