Ключовою частиною цитованого тексту є:
Для виконання перегляду досвіду ми зберігаємо досвід агентаet=(st,at,rt,st+1)
Це означає, що замість того, щоб проводити Q-навчання на парах стану / дій, як вони виникають під час моделювання чи фактичного досвіду, система зберігає дані, виявлені для [стан, дія, винагорода, наступна_держава] - як правило, у великій таблиці. Зауважте, що це не зберігає пов'язані значення - це вихідні дані, які слід подавати в розрахунки значення і значення пізніше.
Фаза навчання логічно відокремлюється від набуття досвіду та заснована на взятті випадкових зразків з цієї таблиці. Ви все ще хочете поєднати два процеси - дію та навчання - тому що вдосконалення політики призведе до різної поведінки, яка повинна досліджувати дії, наближені до оптимальних, і ви хочете вчитися на цьому. Однак ви можете розділити це як завгодно - наприклад, зробити один крок, вчитися на трьох випадкових попередніх етапах і т. Д. Цілі Q-навчання при використанні перегляду досвіду використовують ті ж цілі, що і в онлайн-версії, тому нової формули для цього немає. Наведена формула втрат також та, яку ви використовували б для DQN без перегляду досвіду. Різниця полягає лише в тому, що s, a, r, s ', a' ви в неї подаєте.
У DQN команда DeepMind також підтримувала дві мережі та перемикала, яка навчається, а яка подає в поточних оцінках, що оцінюються як "завантажувальні". Це допомогло стабільності алгоритму при використанні нелінійного аппроксиматора функції. Ось що означає смугу в - вона позначає альтернативну заморожену версію ваг.θ ¯i
Переваги перегляду досвіду:
Ефективніше використовувати попередній досвід, вивчаючи його кілька разів. Це важливо, коли набуття досвіду в реальному світі коштує дорого, ви можете повністю використовувати його. Оновлення Q-навчання є поступовими і швидко не зближуються, тому багаторазові передачі з однаковими даними вигідні, особливо коли є низька дисперсія в негайних результатах (винагорода, наступний стан) за умови того ж стану, пари дій.
Краща конвергенційна поведінка під час тренування функціонального адаптатора. Частково це відбувається тому, що дані більше схожі на iid дані, прийняті в більшості контрольованих доказів конвергенції навчання.
Недолік перегляду досвіду:
- Важче використовувати багатоступеневі алгоритми навчання, такі як Q ( ), які можна настроїти, щоб дати кращі криві навчання, балансуючи між ухилом (через завантаження) та дисперсією (через затримки та випадковість у довгострокових результатах ). Багатоступеневий DQN з повторним відтворенням DQN є одним із розширень, що досліджуються у статті Веселка: Поєднання вдосконалень у навчанні з глибокого зміцнення .λ
Девід Сілвер коротко окреслив підхід, використаний у DQN, у частинах цієї відео лекції (близько 01:17:00, але варто ознайомитись із розділами перед нею). Рекомендую переглянути цілу серію, яка є випускницьким курсом з підсилення навчання, якщо у вас є час.