Чи навчалася гра Deri NDN Atari DeepMind одночасно?


9

DeepMind заявляють, що їх глибока Q-мережа (DQN) змогла постійно адаптувати свою поведінку під час навчання 49 ігор Atari.

Вивчивши всі ігри з однаковою нейронною мережею, чи був агент, здатний одночасно грати у них на «надлюдських» рівнях (коли б це було випадково представлено однією з ігор), чи міг би бути гарним лише в одній грі, вимагали перевчення?


"Після вивчення всіх ігор з однаковою нейронною сіткою". Чи означає це та ж архітектура NN АБО однакова архітектура та один набір ваг?
Анкур

@Ankur насправді я не впевнений - це моє (обмежене) розуміння, що вони використовували ту саму архітектуру і не скидали ваги між іграми.
Діон

Відповіді:


2

Переключення вимагало повторного навчання.

Також зауважте, що :

Ми використовуємо однакову мережеву архітектуру, алгоритм навчання та параметри гіперпараметрів у всіх семи іграх, показуючи, що наш підхід достатньо надійний для роботи над різними іграми без включення конкретної гри. Поки ми оцінювали наших агентів щодо реальних та немодифікованих ігор, ми внесли одну зміну до структури винагород ігор лише під час тренувань.

і

мережа перевершила всі попередні алгоритми RL у шести із семи ігор, у яких ми намагалися перевершити досвідченого гравця людини на трьох.


1

Комутація вимагає повторного навчання, у мережі не було єдиного набору ваг, що дозволило б їй добре грати у всі ігри. Це пов’язано з катастрофічною проблемою забування.

Однак нещодавно було зроблено роботу щодо подолання цієї проблеми:

«Подолання катастрофічного забування в нейронних мережах», 2016

Папір: https://arxiv.org/pdf/1612.00796v1.pdf

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.