Пошук дерев Монте-Карло: Які ходи легко знайти і які види створюють проблеми?


10

Я хочу розпочати зі сценарію, який змусив мене замислитись про те, наскільки добре може виконати MCTS: Припустимо, що є дерево, яке ще не додано до дерева пошуку. Це деякі шари / переміщення занадто глибокі. Але якщо ми будемо грати в цей хід, гра в основному виграється. Однак припустимо також, що всі рухи, які можна було б зробити замість даного ігрового стану, дуже погані. Для аргументації скажімо, що є 1000 можливих рухів, і лише один з них хороший (але дуже хороший), а решта - дуже погана. Чи не змогли б MCTS розпізнати це і нівиростити дерево пошуку до цього кроку, а також оцінити це піддерево дуже погано? Я знаю, що MCTS врешті-решт переходить до minimax (і врешті-решт він створить усе дерево, якщо буде достатньо пам’яті). Тоді слід знати, що хід хороший, хоча є багато поганих можливостей. Але я думаю, що на практиці це не те, на що можна покластися. Можливо, хтось може сказати мені, чи це правильна оцінка з мого боку.

Крім цього спеціального сценарію, я також хотів би знати, чи є інші подібні сценарії, коли MCTS буде погано (або надзвичайно добре).


MCTS є вірогідним. Як такий, йому потрібні підказки, або він нічого не знайде. Наприклад: пошук голки в копиці сіна. Спробуйте це, і вам не вдасться. Було б добре, якби ви могли придумати більш реалістичний приклад і запитати, яка оптимальна стратегія для цього прикладу. Це може дати підказку, як краще знайти голки в копиці сіна.
Триларіон

Відповіді:


2

Буде знайдений хід і як швидко він знайдеться, залежить від кількох речей. Якщо я правильно розумію, є послідовність багатьох "поганих" кроків, які призводять до руху "великого виграшу", і ви боїтесь, що алгоритм MCTS не потрапить на хід "великого виграшу", оскільки він буде вибирати більш перспективний рухається далі вгору по дереву. Деякі речі, про які варто задуматися (читайте також статтю MCP Wikipedia ):

  • під час гри, ви можете грати в гру лише на кілька подальших рухів або вниз до кінця гри. Відтворити лише кілька кроків далі, очевидно, швидше, але в крайньому випадку ви описали це не був би найкращим вибором. Якщо ви знаєте про існування таких сценаріїв, переконайтеся, що ви граєте до кінця в грі.

  • роблячи ігри, ви можете вибирати свої рухи / дії як випадковим чином, так і на основі простої жадібної (швидкої) евристики з урахуванням вашої проблеми. Чи можуть бути жадібні евристики, розроблені для пошуку або врахування таких сценаріїв для вашої гри / проблеми? Якщо так, то застосуйте їх. Тоді його називають "важким розігруванням". Порівняйте результати з розігруванням, використовуючи випадкові рухи.

  • Якщо ви обираєте дії, використовуючи UCT (Верхня межа впевненості, застосована до Дерев), то перша частина виразу відповідає за експлуатацію. Переважними є рухи з високим середнім коефіцієнтом виграшу. Друга частина, хоча відповідає розвідці. Якщо параметр дослідження встановлений досить високо (тестуйте емпірично на вашу проблему), то переважністю буде декілька моделей. Висока розвідка була б ще одним способом знайти ваш золотий хід, на шкоду експлуатації (читайте про дилему розвідки / експлуатації).

Якщо ви опишете реалістичний сценарій гри або проблем, ми можемо допомогти вам розробити відповідну стратегію.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.