Я не фахівець з цього питання, і моє питання, мабуть, дуже наївне. Це випливає з есе для розуміння повноважень та обмежень навчання підкріплення, що використовується в програмі AlphaGo.
Програма AlphaGo була побудована, використовуючи, серед іншого (Монте-Карло розвідка дерев тощо), нейронні мережі, які навчаються з величезної бази ігор, що граються людьми, і які потім посилюються, дозволяючи грати у версії програму проти себе багато разів.
Тепер мені цікаво, що трапилося б - ми намагалися створити таку програму без людської бази даних, тобто, починаючи з базової програми Go просто знаючи правила та якийсь метод дослідження дерев, і дозволяючи грати проти себе, щоб покращити свою нейронну мережу. Чи будемо ми після багатьох ігор проти себе потрапляти в програму, здатну змагатися або перемагати найкращих гравців людини? І якщо так, то скільки ігор (на порядок) знадобиться для цього? Або навпаки, чи сходиться така програма до значно слабшого гравця?
Я припускаю, що експеримент не був зроблений, оскільки AlphaGo так недавно. Але відповідь все-таки може бути очевидною для фахівця. Інакше будь-яка освічена здогадка мене зацікавить.
Можна також задати те саме питання для «простіших» ігор. Якщо ми будемо використовувати приблизно таку саму техніку підкріплення, що використовується для AlphaGo, але без використання людської бази даних, для шахової програми, чи зможемо ми врешті отримати програму, здатну перемогти найкращих людей? А якщо так, то як швидко? Це було випробувано? Або як не для шахів, то що щодо шашок, чи ще простіших ігор?
Дуже дякую.