Новий AI виграє на ходу. Чи може подібний ШІ перемогти в шахах? Чи можна досягти чистої самопідготовки?


20

Одне з найпопулярніших питань, що задаються на цьому веб-сайті, стосується перспективи суто тренувального шахового тренера AI.

Сьогодні ChessBase відволіклась від свого висвітлення турніру FIDE Candidates, повідомляючи про те, що новий ШІ вперше переміг провідного майстра досить іншої гри, яка багато років чинила опір ШІ у стилі шахового стилю. Перше прочитання доповіді говорить про те, що новий ІД на відміну від шахових ІІ, але є майже майже загальним ігровим (GGP) AI. У статті ChessBase, однак, не використовується термін GGP, але, схоже, йдеться про те, що ШІ може виграти у простих відеоіграх.

Чи є якась причина, щоб такий виграшний ШІ не міг із незначними корективами також виграти в шахах? Якщо так, чи обіцяє таке шоу AI досягти чистої самопідготовки, раніше було обговорено кілька чудових відповідей на попереднє питання, що на той час ще не було можливим? Чому або чому ні?

Я підозрюю, що ще немає доступної повної інформації про моє запитання, тому навіть часткова відповідь, заснована на відповідній експертизі, буде оцінена.

Для додаткового посилання див. Також це пов'язане питання та відповіді.

ОНОВЛЕННЯ

Коли вищевказане питання було вперше опубліковано п’ять днів тому і коли було дано кілька тонких відповідей нижче, перші новини про перемогу в дорозі AI тільки з'явилися. З цього часу з'явилася додаткова інформація та коментарі.

Особливо цікавою з тих пір була досить читабельна, п’ятистороння круглий стіл, де один Джонатан Шефер зазначає:

Навчання людям ігор допомагає прискорити навчання програми. AlphaGo міг навчитися самостійно стати сильним гравцем, не використовуючи людських ігор. Процес навчання просто зайняв би більше часу.

За словами господаря круглого столу, Шеффер є "професором універсальної комп'ютерної науки в університеті Альберти та людиною, яка розгадувала шашки"; тому, мабуть, він може бути кваліфікований для коментарів.

Для отримання додаткової інформації, ось запис іншого відкритого обговорення, багато з учасників якого здаються краще обізнаними, ніж зазвичай. Дискусія відбулася під час матчу.

Подальше оновлення, через півтора року: commenter @MarkS. пише:

Це лише коментар, оскільки мова йде про Go, а не про шахи, але AlphaGo Zero досяг «чистої самопідготовки» лише з того, що йому сказали, хто виграв (а не остаточний рахунок) і сильніший та набагато ефективніший, ніж AI, який переміг Лі Седола . Для отримання додаткової інформації див. Deepmind.com/blog/alphago-zero-learning-scratch


Я пропоную вам попросити це на інших технічних форумах. ШІ - це складна тема, і для її розуміння потрібно мати знаний досвід. Дивлячись на відповіді тут, я не впевнений, що ви отримаєте розумну відповідь.
Сальвадор Далі

5
Надані відповіді високо оцінені. Я вже відмовився від одного. Якщо я ще не прийняв жодної, це не критика відповідей, а визнання того, що питання настільки важке, а тема настільки нова, що прийнятна відповідь може бути ще недоступною. Залишимо це питання відкритим на деякий час, щоб побачити, чи через деякий час стане доступною відповідь, недоступна сьогодні. Спасибі.
вт

1
Це лише коментар, оскільки мова йде про Go, а не про шахи, але AlphaGo Zero досяг «чистої самопідготовки» лише з того, що йому сказали, хто виграв (а не остаточний рахунок) і сильніший та набагато ефективніший, ніж AI, який переміг Лі Седола . Для отримання додаткової інформації дивіться deepmind.com/blog/alphago-zero-learning-scratch
Марк С.

1
@thb Я думаю, що AlphaZero - це такий штучний інтелект.
Гаррі Візлі

1
Станом на грудень 2017 року AlphaZero навчила себе шаховому стилю лише з правил гри arxiv.org/pdf/1712.01815.pdf та переконливо відхилила StockFish.
saille

Відповіді:


14

Так Так Так! DeepMind опублікував документ, в якому вони стверджують, що вони запрограмували і навчили комп'ютер нейронної мережі для побиття Stockfish.

За 1 хвилину часу на роздуми їх комп'ютер AlphaZero переміг Stockfish на +25, = 25, -0 з білим і + 3, = 47,0-, як чорний.

Вони «навчили» 3 окремих комп’ютера грати в шахи, шогі та Go і переконливо бити своїх кремнієвих суперників.

Ось як у статті описано навчання та оцінювання -

Ігри для самостійного відтворення створюються за допомогою останніх параметрів для цієї нейронної мережі, опускаючи крок оцінки та вибір найкращого гравця.

AlphaGo Zero налаштував гіперпараметр свого пошуку шляхом байєсівської оптимізації. У AlphaZero ми використовуємо однакові гіперпараметри для всіх ігор без конкретної настройки гри. Єдиним винятком є ​​шум, який додається до попередньої політики щодо забезпечення розвідки; це масштабується пропорційно типовій кількості законних кроків для цього типу гри.

Як і AlphaGo Zero, стан дошки кодується просторовими площинами на основі лише основних правил для кожної гри. Дії кодуються або просторовими площинами, або плоским вектором, знову ж таки спираючись лише на основні правила для кожної гри (див. Методи).

Ми застосували алгоритм AlphaZero до шахів, шогі, а також Go. Якщо не вказано інше, для всіх трьох ігор використовували однакові параметри алгоритму, мережеву архітектуру та гіперпараметри. Ми тренували окремий екземпляр AlphaZero для кожної гри. Навчання тривало за 700 000 кроків (міні-партії розміром 4 096), починаючи з випадково ініціалізованих параметрів, використовуючи 5000 ТПУ першого покоління для генерації ігор в самостійні ігри та 64 ТПУ другого покоління для тренування нейронних мереж. Подальшу інформацію про процедуру навчання викладено в Методах.

На малюнку 1 показано ефективність AlphaZero під час підкріплення самостійної гри, як функцію навчальних кроків, за шкалою Ело (10). У шахах AlphaZero перевищив Stockfish всього за 4 години (300 крок); в шоги AlphaZero перевершив Елмо менше ніж за 2 години (110 крок); і в програмі Go, AlphaZero випереджав AlphaGo Lee (29) через 8 годин (165 крок).

Ми оцінили повністю навчені екземпляри AlphaZero проти Stockfish, Elmo та попередньої версії AlphaGo Zero (тренувались 3 дні) у шахах, шогі та Go відповідно, зігравши 100 ігрових матчів у контрольному режимі часу турніру - одну хвилину за хід. AlphaZero та попередній AlphaGo Zero використовували одну машину з 4 ТПУ. Stockfish та Elmo грали на своєму найсильнішому рівні навичок, використовуючи 64 теми та розмір хешу 1 Гб. AlphaZero переконливо переміг усіх супротивників, програвши нульові ігри на Stockfish та вісім ігор Elmo (див. Додатковий матеріал для кількох прикладних ігор), а також переможивши попередню версію AlphaGo Zero (див. Таблицю 1).

На їхньому комп’ютері було використано нову форму мікросхем під назвою "TPU" ( блок обробки процесів тензорів ), розроблену Google для завдань машинного навчання.

Вони також стверджують, що їх алгоритм пошуку дерев Монте-Карло є кращим і "людським схожим", ніж традиційні алфавіти алфа-бета-пошуку -

Ми також проаналізували відносну ефективність пошуку MCZ AlphaZero порівняно з найсучаснішими альфа-бета-пошуковими системами, якими користуються Stockfish та Elmo. AlphaZero шукає лише 80 тис. Позицій в секунду в шахах і 40 тис. В шогі, порівняно з 70 мільйонами для Stockfish і 35 мільйонів для Elmo. AlphaZero компенсує меншу кількість оцінок, використовуючи свою глибоку нейронну мережу, щоб значно більш вибірково зосередитись на найперспективніших варіантах - можливо, на більш "людському" підході до пошуку, як спочатку запропонував Шеннон. На малюнку 2 показано масштабованість кожного гравця щодо часу мислення, виміряного за шкалою Ело, відносно Stockfish або Elmo з 40мс мислення. MCTS AlphaZero масштабував ефективніше за час роздумів, ніж або Stockfish або Elmo,

Ось деякі ігри -

Стокові риби - AlphaZero, 0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. Nbd2 O-O 8. Qe1 f6 9. Nc4 Rf7 10. a4 Bf8 11. Kh1 Nc5 12. a5 Ne6 13. Ncxe5 fxe5 14. Nxe5 Rf6 15. Ng4 Rf7 16. Ne5 Re7 17. a6 c5 18. f4 Qe8 19. axb7 Bxb7 20. Qa5 Nd4 21. Qc3 Re6 22. Be3 Rb6 23. Nc4 Rb4 24. b3 a5 25. Rxa5 Rxa5 26. Nxa5 Ba6 27. Bxd4 Rxd4 28. Nc4 Rd8 29. g3 h6 30. Qa5 Bc8 31. Qxc7 Bh3 32. Rg1 Rd7 33. Qe5 Qxe5 34. Nxe5 Ra7 35. Nc4 g5 36. Rc1 Bg7 37. Ne5 Ra8 38. Nf3 Bb2 39. Rb1 Bc3 40. Ng1 Bd7 41. Ne2 Bd2 42. Rd1 Be3 43. Kg2 Bg4 44. Re1 Bd2 45. Rf1 Ra2 46. ​​h3 Bxe2 47. Rf2 Bxf4 48. Rxe2 Be5 49. Rf2 Kg7 50. g4 Bd4 51. Re2 Kf6 52. e5 + Bxe5 53. Kf3 Ra1 54. Rf2 Re1 55. Kg2 + Bf4 56. c3 Rc1 57. d4 Rxc3 58. dxc5 Rxc5 59. b4 Rc3 60. h4 Ke5 61 . hxg5 hxg5 62. Re2 + Kf6 63. Kf2 Be5 64. Ra2 Rc4 65. Ra6 + Ke7 66. Ra5 Ke6 67. Ra6 + Bd6 0-1

Гра

Стокові риби - AlphaZero, 0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. c3 O-O 8. d4 Bd6 9. Bg5 Qe8 10. Re1 f6 11. Bh4 Qf7 12. Nbd2 a5 13. Bg3 Re8 14. Qc2 Nf8 15. c4 c5 16. d5 b6 17. Nh4 g6 18. Nhf3 Bd7 19. Rad1 Re7 20. h3 Qg7 21. Qc3 Rae8 22. a3 h6 23. Bh4 Rf7 24. Bg3 Rfe7 25. Bh4 Rf7 26. Bg3 a4 27. Kh1 Rfe7 28. Bh4 Rf7 29. Bg3 Rfe7 30. Bh4 g5 31. Bg3 Ng6 32. Nf1 Rf7 33. Ne3 Ne7 34. Qd3 h5 35. h4 Nc8 36. Re2 g4 37. Nd2 Qh7 38. Kg1 Bf8 39. Nb1 Nd6 40. Nc3 Bh6 41. Rf1 Ra8 42. Kh2 Kf8 43. Kg1 Qg6 44. f4 gxf3 45. Rxf3 Bxe3 + 46. ​​Rfxe3 Ke7 47. Be1 Qh7 48. Rg3 Rg7 49. Rxg7 + Qxg7 50. Re3 Rg8 51. Rg3 Qh8 52. Nb1 Rxg3 53. Bxg3 Qh6 54. Nd2 Bg4 55. Kh2 Kd7 56. b3 axb3 57. Nxb3 Qg6 58. Nd2 Bd1 59. Nf3 BA4 60. Nd2 Ke7 61 . Bf2 Qg4 62. Qf3 Bd1 63. Qxg4 Bxg4 64. a4 Nb7 65. Nb1 Na5 66. Be3 Nxc4 67. Bc1 Bd7 68. Nc3 c6 69. Kg1 cxd5 70. exd5 Bf5 71. Kf2 Nd6 72. Be3 Ne4 + 73. Nxe4 Bxe4 74. а5 bxa5 75. bxc5 + Kd7 76. d6 Bf5 77. Ва3 Kc6 78. KE1 Kd5 79. KD2 Ke4 80. Bb2 KF4 81. Bc1 KG3 82. KE2 а4 83. KF1 Kxh4 84. Kf2 Kg4 85. Ba3 Bd7 86. Bc1 Kf5 87. Ke3 Ke6 0-1

Білий: AlphaZero Чорний: Stockfish

AlphaZero - Stockfish, 1-0
1. Nf3 Nf6 2. с4 b6 3. d4 е6 4. g3 Ba6 5. Qc2 с5 6. d5 exd5 7. cxd5 Bb7 8. Bg2 Nxd5 9. OO Кс6 10. Rd1 Ве7 11. Qf5 Nf6 12. є4 g6 13. Qf4 O-O 14. e5 Nh5 15. Qg4 Re8 16. Nc3 Qb8 17. Nd5 Bf8 18. Bf4 Qc8 19. h3 Ne7 20. Ne3 Bc6 21. Rd6 Ng7 22. Rf6 Qb7 23. Bh6 Nd5 24. Nxd5 Bxd5 25. Rd1 Ne6 26. Bxf8 Rxf8 27. Qh4 Bc6 28. Qh6 Rae8 29. Rd6 Bxf3 30. Bxf3 Qa6 31. h4 Qa5 32. Rd1 с4 33. Rd5 QE1 + 34. kg2 c3 35. Bxc3 Qxc3 36. h5 RE7 37. Bd1 QE1 38. Bb3 Rd8 39. RF3 QE4 40. Qd2 Qg4 41. Bd1 QE4 42. h6 NC7 43. Rd6 Ne6 44. Bb3 Qxe5 45. Rd5 Qh8 46. Qb4 Nc5 47. Rxc5 bxc5 48. Qh4 Rde8 49. RF6 Rf8 50. Qf4 a5 51. g4 d5 52. Bxd5 RD7 53. Bc4 а4 54. g5 а3 55. Qf3 Rc7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. Qd3 Rf8 59. Qd6 Rfc8 60. а4 1 0

Просто прочитайте папір. Дійсно дивовижно. Звичайно, це не означає, що ти не зміг би побудувати щось ще сильніше за традиційними методами у поєднанні з AlphaZero, але все ж ...
BlindKungFuMaster

10

Гаразд, я повинен визнати, що я помилявся. Хоча я запевняю, що це було пов’язано з знаннями експертної думки, а не загальної тупості: наводимо статті : "Однак шахові програми, що використовують традиційні MCTS, були набагато слабкішими, ніж альфа-бета-програми пошуку (4, 24); в той час як альфа -бета програми, що базуються на нейронних мережах, раніше не змогли конкурувати з більш швидкими функціями оцінювання, виконаними вручну ".

Мабуть, шахи є стратегічно досить глибокими, щоб ви могли стратегувати когось, хто міг би вас обчислити. Для мене це велика несподіванка, оскільки розвиток шахових двигунів йшов у зворотному напрямку. (Мабуть, є ще невеликий застереження щодо того, чи справді AlphaZero сильніший, ніж Stockfish: Stockfish грає всього з 1gb за хештелі та 64 ядра, можливо, це не збіг чотирьох TPU)

Це теж дійсно дуже цікаво, тому що AlphaZero дуже сильно відрізняється від традиційних двигунів.

Це також означає, що я багато оновлюю переконання у значенні AlphaGo як технологічного прориву. В основному смачні шоги, Go and chess з однією єдиною установкою є абсолютно дивовижною, не кажучи вже про десятки інших ігор, які, можливо, могли б грати на надлюдському рівні від AlphaZero.

Є приємне пояснення, чому MCTS насправді є гідною ідеєю навіть для шахів порівняно з альфа-бета-пошуком (з паперу): "AlphaZero оцінює позиції, використовуючи нелінійне наближення функції на основі глибокої нейронної мережі, а не лінійної наближення функції, що використовується в типових шахових програмах. Це забезпечує набагато більш потужне подання, але може також вводити помилкові помилки наближення. MCTS складає серед цих помилок наближення, які, як правило, скасовуються при оцінці великого піддерева. На відміну від альфа-бета-пошуку обчислює явний міні-max, який поширює найбільші помилки наближення до кореня піддерева. " (наголос мною)

Ось моя стара відповідь, яка все ще містить деякі достовірні моменти, незважаючи на те, що висновок витісняється реальністю.

Перш за все Alphago не є загальною ігровою системою. Це програма, розроблена виключно для гри в дорогу і нічого іншого. Однак це побудовано з певних будівельних блоків, які мають набагато ширше застосування, таких як звивисті нейронні мережі , які використовуються для розпізнавання зображень і мають негайне застосування в медичній діагностиці, та посилення навчання, яке використовувалося для освоєння ігор Atari, згаданих у Стаття.

Крім того, нинішні двигуни "вчаться" самостійно граючи : "За ніч шість комп’ютерів Лефлера грають через понад 14000 ігор кожен протягом восьмигодинного періоду." Шість машин разів 14 000 ігор - це багато ігор ", - говорить він. з кожною грою, база даних стає все глибшою та багатшою. Існує навіть спортивний інтерес спостерігати за тим, як комп’ютери грають один проти одного. Результатом жвавого закручування машин Лефлера є постійно зростаюче майстерність Комодо ".

Щоб прийти до основної частини вашого питання:

Існує важлива різниця між шахами та іграми, принаймні з точки зору програміста. Шахи - це скоріше тактична гра, тоді як перехід - більше стратегічна гра. Це означає, що в шаховому розрахунку глибини козирів позиційна оцінка. Це в основному ключове розуміння, яке відрізняє "старі" двигуни, такі як Fritz, Shredder, Junior та новіші покоління, такі як Fruit, Rybka, Houdini, Stockfish, Komodo. Оскільки в кінці кожного рядка ви повинні оцінювати позицію, і ви хочете обчислити рядки партії, а якість оцінки не так важлива, як глибина пошуку, шахові машини мають функціональну швидкість та швидку оцінку.

З іншого боку, тактична складність занадто велика навіть для комп'ютерів. Отже, оцінка позицій та рухів точно є ключовим. Що Alphago приносить нове в грі, це ця сила оцінювання, яка базується на згорткових нейронних мережах .

Нарешті, щоб перейти до моєї точки зору: Оскільки функції шахового оцінювання є худорлявими та швидкими, нейронні мережі мають мільйони, іноді мільярди параметрів. Оскільки "навчання" в цьому контексті означає налаштування параметрів, набагато більше можливого прогресу для програм самоосвітнього навчання.

Так, так, ви можете використовувати налаштування типу Alphago для створення шахового двигуна, але це було б не особливо добре. Запуск функції оцінки зайняв би стільки часу, що вам доведеться використовувати величезний кластер gpus, щоб дістатися до необхідних глибин пошуку (що і робить Alphago). Ви можете створити дуже хорошу оціночну функцію , але швидкість компромісу не варта.


1
Я не погоджуюся з вами з цього приводу, ви можете використовувати налаштування типу Alphago для створення шахового двигуна, але це було б не особливо добре . Я можу зробити ставку на те, що через менше року буде шахова машина, яка сильно покладається на NN (це, швидше за все, буде пошук дерев і monte carlo, але це не важливо), що буде близько найсучасніший тваринник. І цей двигун походитиме не від суперкорпорації (адже інтерес до шахів давно згас у дослідників ШІ), а скоріше від сильного хобіста.
Сальвадор Далі

Монте-Карло абсолютно марний у шахах. І хоча НН не марні, вони просто надто повільні.
BlindKungFuMaster

3
Чому саме MCTS марний? Має сенс бігати починати з поточної позиції на дошці, запускати 1000 ігор з глибиною вузла 5 і бачити, який вузол має більше шансів. Це дуже схоже на те, що ви робите, коли дивитеся на статистику кроків у базі даних і бачите, що після 14. Kg4 білий виграє 25%, але з 14. Rb2 він виграє з 45%. Чи є у вас докази абсолютно марної фрази.
Сальвадор Далі

2
MCTS - це не про випадковість, а про моделювання. Основні вступні книги про MC, що показують вам приклад випадковості лише для того, щоб показати сенс. Ви можете грати в різку позицію багато разів із глибиною вузла 6, що є дуже швидким (і все ще досить надійним), і дозволить вам приблизно оцінити, який рух краще.
Сальвадор Далі

1
Мої заяви не сміливі, вони є мейнстримом. Просто прочитайте кілька сайтів програмування шахів, ви знайдете більш-менш мої аргументи. MCTS відомий уже десятиліття, а в шахах інші речі просто працюють краще. З іншого боку, я не думаю, що ваші висловлювання базуються ні на чому іншому, ніж на відчутті кишки, тому це буде моїм останнім коментарем.
BlindKungFuMaster

5

Є проект під назвою spawkfish, який намагається зробити саме це. Це нейромережевий двигун, метою якого є "дослідити, як останні досягнення в галузі комп'ютерної програми Go Go можуть бути застосовані у світі комп'ютерних шахів".

Це молодий проект, і двигун ще досить слабкий. Грати в нього цікаво, адже його позиційна гра краща за тактику.


2
Ви не жартували з цим останнім реченням. Я просто зіграв пару ігор проти цього, і кожна з них потрапила в досить рівну ендгра, лише побачивши, як спауффікс раптом викине матеріал (в одному випадку просто вивісив граб з нізвідки). Дивно.
ETD

З того часу, як ви відповіли, нова інформація щодо ШІ, схоже, з’явилася. Я оновив питання, щоб посилатися на новини, якщо це вас цікавить.
вт

Веб-сайт для spawkfish, здається, зник ...
hkBst

4

Чи може подібний ШІ перемогти в шахах? Чи можна досягти чистої самопідготовки?

Коротка відповідь - "Ні!"

Шахи та ігри кардинально відрізняються своєю відносною простотою та відносною складністю, що випливає з їх геометрії та того, як ви виграєте. Вони поєднуються, щоб зробити програму, яка гарна в одній, непотрібна для іншої.

У шахах ви виграєте, перевіряючи суперника, очки не враховуються. Звичайно, розумний противник часто подасть у відставку, перш ніж доставити мат, але принцип той же. По ходу ви виграєте, маючи в кінці гри більше очок. Якщо у мене є король і королева, а у вас є король, ладья і пішак, але ви побудували фортецю, то не має значення, що у мене 9 королів за королеву, а у вас лише 6 балів за ваш ладьй і пішак. Гра - нічия.

Це робить принципову різницю в складності між шахами та ходом. У ході ви можете просто забити рахунок, і будете знати, хто виграє. У шахах єдиний спосіб дізнатися, хто виграє - це чистий розрахунок. У цьому сенсі шахи набагато складніші, ніж ходити.

У той же час, завдяки геометрії двох ігор, на порядок більше можливостей у ході, ніж у шахах. У цьому сенсі піти набагато складніше, ніж шахи.

Шахова програма працює шляхом розрахунку грубої сили всіх можливих рухів на певну глибину, яка визначає її силу. Програма go не може працювати так і грати нічого більш просунутого, ніж початковий рівень go.

Основна мета руху - контролювати більше території, ніж ваш противник. В кінці гри не має значення, різниця - 1 камінь або 100 каменів, обидва - це виграш. Кожного разу, коли кладеш камінь, робиш дві речі. Ви збільшуєте територію, потенційну чи фактичну, і зменшуєте опонент.

Іноді, коли фактично збільшується чи зменшується територія, легко підрахувати значення ходу, але коли це потенційно, це дуже важко оцінити. Як слабкий гравець, я розумію, що "фактичний" набагато краще, ніж "потенційний", і сильніший гравець бив мене, будуючи набагато більшу потенційну територію в центрі, в той час як я будую менші фактичні території на краях і в кутах. Сильніший гравець буде формувати вміння судити за інтуїцією та відчувати себе від гри в багато ігор та визнавати, як будувати "потенційну" територію.

Раніше я говорив, що кожного разу, коли я кладу камінь, це збільшує мою територію (фактичну чи потенційну) і зменшує опонента (насправді, якщо це дурний хід, це буде робити навпаки!). У будь-якій заданій позиції не всі рухи однакові. Камінь, розміщений в одному положенні, може коштувати набагато більше або набагато менше, ніж камінь, розміщений в іншому.

Зазвичай в грі будуть невеликі "бійки", де гравці розміщують своє каміння поруч один з одним, відзначаючи свою територію і обмежуючи опонента. Тим часом є можливість почати розміщувати територію в іншій частині дошки або перейти на бійку десь в іншому місці, де обидва гравці вже мають камені.

Що дуже важливо в цих ситуаціях - це знати, коли припинити один бій, оскільки потенційні виграші зменшилися, або перейти до іншого бою, або, можливо, вийти на територію незайманих. Іноді це залежить від жорсткого розрахунку, але часто він набагато туманніший і не підлягає обчисленню. Як слабкий гравець, саме тут сильний платник кожного разу буде мене тиснути.

Те, що комп’ютер робить у цих ситуаціях, - це використовувати ймовірнісні методи для отримання очікуваного балу за певний хід. Іноді фактичне значення виявиться трохи меншим, іноді трохи більше, але при тривалій відстані воно вийде більш-менш. Він буде продовжувати обирати хід з найбільшою очікуваною вартістю, сподіваючись, що за тривалий час гри невеликі помилки скасуються і її стратегія виграє.

Це не стратегія, яка звучить звично шахістам, і не така, яка буде працювати в шахах. Це щось, що звучить звично кожному, хто стежить за тим, що відбувається на фондових ринках. Це звучить дуже схоже на щось, що називається "торгівля на високій частоті", де комп'ютери робитимуть тисячі малих ставок або просто пропоновані ставки щосекунди, щоб "нікелювати і копійки" ринок і, можливо, навіть рухати його дуже незначно на свою користь протягом періодів мілісекунд.

Вже зараз на фінансових ринках переважають такі види алгоритмічних торгів, що говорить про те, що подібні програми вже перемогли у набагато більш прибутковій сфері, ніж настільна гра.


4
Торги на високих частотах - це не що інше, як ходити в гру. Зовсім інші алгоритми afaik. Крім того, у вашій відповіді багато цікавого, але важко зрозуміти головне, можливо, додайте TL; DR. ;-)
BlindKungFuMaster

@BlindKungFuMaster Принцип, що лежить в основі HFT і AlphaGo, є імовірнісним. Очікуваний прибуток від цього "ходу" становить х%. В довгостроковій перспективі накопичення таких рухів / ставок збирається виграти гру для AlphaGo або заробити статок для HFT-трейдерів. Однак раз у раз відбуватиметься «спалах спалаху» або «диво-крок» від Лі Се-Дола, що перетворює виграш / прибуток у збиток. Це жодним чином не скасовує його програмування. Це не запрограмовано кожен раз знаходити абсолютний найкращий хід. Це трохи схоже на псевдо рішення проблеми мандрівного продавця, які намагаються потрапити в межах 5% найкращих.
Брайан Тауерс

З того часу, як ви відповіли, нова інформація щодо ШІ, схоже, з’явилася. Я оновив питання, щоб посилатися на новини, якщо це вас цікавить.
вт

1
@thb, я вважаю, що ця відповідь дещо застаріла, враховуючи новий успіх AlphaZero, як у arxiv.org/abs/1712.01815
Марк С.

@Чи буде Ні. Чому? Не судіть інших за своїми дрібними мірками.
Брайан Тауерс

4

(Кожен, хто хоче глибокої технічної дискусії для AlphaGo, може переглянути мій пост )

Коротка відповідь : Ні

Довга відповідь :

По-перше, ми повинні зрозуміти, чому Google не впровадив альфа-бета в AlphaGo. Риба-рибалка і Комодо (і всі шахові двигуни) мають альфа-бета, чому б не AlphaGo?

Причина : не існує простого і дешевого способу, який би міг точно оцінити позицію Go на статичному рівні.

У Шахах ми завжди можемо порахувати матеріали, дуже ефективний спосіб статичної оцінки позиції. Хоча це не ідеально, але це дуже швидкий і дуже хороший проксі для шахів.

Пошук простору держави за допомогою Монте-Карло є неповноцінним методом альфа-бета. Google би застосував альфа-бета, якби міг, але не міг. Таким чином, вони були змушені використовувати щось набагато повільніше.

Шаховий двигун не грав би краще з Монте-Карло.


Час для перегляду, а може, просто ще немає?
Еваргало

3

Я не згоден з іншими відповідями. Я вчений-комп’ютер, який професійно працює в галузі штучного інтелекту, а також є кандидатом у майстри шахів та 3-го дан-іго.

Я думаю, наразі незрозуміло, чи можна застосувати методи шансів Deep Mind до шахів, але я думаю, що це можливо.

В даний час провідні програми шахових ігор все частіше покладаються на евристику, а спроба використовувати архітектуру AlphaGo для шахів певним чином буде відповідати тій же схемі мислення.

Однією з ключових архітектурних особливостей AlphaGo, яку потрібно було б змінити, є метод визначення ключових квадратів (або теплових карт), який є специфічним для ігоподібних ігор та не застосовується безпосередньо до шахів. Певний аналог цього методу повинен бути розроблений, щоб зробити архітектуру AlphaGo актуальною для шахів. Наприклад, у нас може бути поняття "ключові фрагменти", а не ключові квадрати.

Я думаю, що аргумент про те, що архітектура AlphaGo не має відношення до шахів, тому що шахи є більш тактичними, не є дуже хорошим твердженням, оскільки в кінцевому підсумку обидва мають дерева пошуку, схожі за формою, що AlphaGo однозначно можна було б адаптувати до шахів.


Я дав вам +1, оскільки ваші претензії можуть бути правильними, але ми не знаємо точно, поки хтось не опублікує документ.
SmallChess

А? Папір вже існує, як вказував Брайан Тауерс. Відповідь - так.
термомагнітний конденсований бозон

Схоже, я мав рацію, хе.
Сесіль Де Вере

@CecilDeVere не погоджуючись з іншими відповідями, 2 з них вказали на правильну відповідь. І не заявляючи, що наразі це незрозуміло, тоді як зрозуміло, що ця відповідь - так (не можливо).
термомагнітний конденсований бозон

3

Відповідь - так! Google це лише довів учора, коли AlphaZero обіграв найкращу шахову програму, використовуючи лише знання про правила та чисту самостійна підготовка, не використовуючи людських шахових знань. Прийнята відповідь неправильна. Посилання на статтю тут: посилання


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.