Стаття AlphaGo Zero з Nature , "Оволодіння грою без знання людини", стверджує чотири основні відмінності від попередньої версії:
- Самонавчання (не тренується на людських іграх)
- Використовуючи лише дошку та каміння як вхідні дані (відсутні функції, написані від руки).
- Використання єдиної нейронної мережі для політики та значень
- Новий алгоритм пошуку дерев, який використовує цю комбіновану мережу політики / цінності, щоб вказати, де шукати хороші кроки.
Бали (1) та (2) не є новими в навчанні підкріплення, але вдосконалюються щодо попереднього програмного забезпечення AlphaGo, як зазначено в коментарях до вашого запитання. Це просто означає, що вони зараз використовують чисте навчання підсилення, починаючи з випадково ініціалізованих ваг. Це ввімкнено кращими, швидшими алгоритмами навчання.
Їх твердження тут полягає в тому, що "наш основний внесок полягає в тому, щоб продемонструвати, що надлюдські показники можна досягти без людського знання". (стор. 22).
Бали (3) і (4) є новими в тому сенсі, що їх алгоритм простіший і загальніший, ніж їх попередній підхід. Вони також зазначають, що це поліпшення попередньої роботи Гу та ін.
Об'єднання мережі політики / вартості (3) дозволяє їм реалізувати більш ефективний варіант пошуку дерев Монте-Карло для пошуку хороших кроків і одночасного використання дерева пошуку для швидшого навчання мережі (4). Це дуже потужно.
Крім того, вони описують ряд цікавих деталей реалізації, таких як групування та повторне використання структур даних для оптимізації пошуку нових кроків.
Ефект полягає в тому, що йому потрібно менше обчислювальної потужності, працює на 4 ТПУ, а не на 176 графічних процесорах та 48 ТПУ для попередніх версій програмного забезпечення.
Це безумовно робить його "новим" у контексті програмного забезпечення Go. Я вважаю, що (3) і (4) також є "новими" в більш широкому контексті і будуть застосовні в інших областях посилення навчання, таких як, наприклад, робототехніка.