Що таке «новий алгоритм навчання підкріплення» в AlphaGo Zero?


10

Чомусь AlphaGo Zero не отримує такої реклами, як оригінальний AlphaGo, незважаючи на неймовірні результати. Починаючи з нуля, він вже переміг AlphaGo Master і пройшов численні інші орієнтири. Ще неймовірніше, що це робиться за 40 днів. Google називає це ", мабуть, найкращим гравцем Go у світі" .

DeepMind стверджує, що це "нова форма підкріплення навчання" - чи справді ця методика новела? Або були інші часи, коли ця методика застосовувалася - і якщо так, то які були їх результати? Я думаю, що вимоги, про які я говорю, - це 1) відсутність втручання людини та 2) відсутність історичної гри, але вони гнучкі.

Це здається подібним питанням, але всі відповіді, здається, починаються з припущення, що AlphaGo Zero є першим у своєму роді.


Навчання підкріпленню не є новим. За якими методами Google стверджував, що вони є першими?
HelloWorld

Цитата про це є на пов'язаному веб-сайті, і в статті вони використовують фразу "Нейронна мережа в AlphaGo Zero тренується від ігор самостійної гри за новим алгоритмом навчання посилення".
Дубукай

1
Самостійна гра, безумовно, не нова. Він існував до Google. В їх алгоритмі є деталі, які роблять їх "новинками". Можливо, хтось ще може відповісти.
HelloWorld

2
Я розумію це - я думаю, я намагаюся зрозуміти, що зробило їхній підхід таким неймовірно хорошим, і чи це ми повинні очікувати в інших сферах. Це нова філософія чи просто справді хороший код?
Дубукай

1
Я знайшов копію статті тут: nature.com/articles/… (включає маркер доступу для спільного доступу, який є з блогу, який посилається на неї, тому це законна публічна частка AFAICS). Навіть після прочитання опису, хоча важко вибрати фактичну новинку - всі індивідуальні ідеї, здається, є вже існуючими методами RL / ігрових ігор, це може бути просто специфічна їх комбінація, яка є новою
Ніл Слейтер

Відповіді:


6

Стаття AlphaGo Zero з Nature , "Оволодіння грою без знання людини", стверджує чотири основні відмінності від попередньої версії:

  1. Самонавчання (не тренується на людських іграх)
  2. Використовуючи лише дошку та каміння як вхідні дані (відсутні функції, написані від руки).
  3. Використання єдиної нейронної мережі для політики та значень
  4. Новий алгоритм пошуку дерев, який використовує цю комбіновану мережу політики / цінності, щоб вказати, де шукати хороші кроки.

Бали (1) та (2) не є новими в навчанні підкріплення, але вдосконалюються щодо попереднього програмного забезпечення AlphaGo, як зазначено в коментарях до вашого запитання. Це просто означає, що вони зараз використовують чисте навчання підсилення, починаючи з випадково ініціалізованих ваг. Це ввімкнено кращими, швидшими алгоритмами навчання.

Їх твердження тут полягає в тому, що "наш основний внесок полягає в тому, щоб продемонструвати, що надлюдські показники можна досягти без людського знання". (стор. 22).

Бали (3) і (4) є новими в тому сенсі, що їх алгоритм простіший і загальніший, ніж їх попередній підхід. Вони також зазначають, що це поліпшення попередньої роботи Гу та ін.

Об'єднання мережі політики / вартості (3) дозволяє їм реалізувати більш ефективний варіант пошуку дерев Монте-Карло для пошуку хороших кроків і одночасного використання дерева пошуку для швидшого навчання мережі (4). Це дуже потужно.

Крім того, вони описують ряд цікавих деталей реалізації, таких як групування та повторне використання структур даних для оптимізації пошуку нових кроків.

Ефект полягає в тому, що йому потрібно менше обчислювальної потужності, працює на 4 ТПУ, а не на 176 графічних процесорах та 48 ТПУ для попередніх версій програмного забезпечення.

Це безумовно робить його "новим" у контексті програмного забезпечення Go. Я вважаю, що (3) і (4) також є "новими" в більш широкому контексті і будуть застосовні в інших областях посилення навчання, таких як, наприклад, робототехніка.


Я думаю, що (4) посилається на лекції Девіда Сілвер - лекція 10 з класичних ігор - у багатьох існуючих випадках MCTS керується вже навченою МЛ. У випадку AlphaGo Zero це перевертається, і результат MCTS використовується для встановлення навчальних цілей для ML. Однак те, що мене змушує замислитись, чи це справді "роман", - це можливість робити саме те, про що йдеться в лекції. . .
Ніл Слейтер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.