Чому для відтворення досвіду необхідний алгоритм поза політики?

У статті, що представляє DQN " Гра в Атарі з глибоким зміцненням навчання ", вона згадувала:

Зауважте, що при навчанні за допомогою перегляду досвіду необхідно вчитися поза політикою (оскільки наші поточні параметри відрізняються від тих, які використовуються для створення вибірки), що мотивує вибір Q-навчання.

Я не зовсім зрозумів, що це означає. Що робити, якщо ми використовуємо SARSA і пам'ятаємо про дію, a'яку ми маємо зробити в s'нашій пам'яті, а потім вибирати з неї партії та оновлювати Q, як ми це робили в DQN? І чи можуть акторсько-критичні методи (для конкретних A3C) використовувати досвід повторної роботи? Якщо ні, то чому?

reinforcement-learning

— DarkZero
джерело

Політичні методи, як SARSA, очікують, що дії в кожному штаті вибиратимуться на основі поточної політики агента, яка, як правило, прагне використовувати винагороду.

У такий спосіб політика стає кращою, коли ми оновлюємо нашу політику на основі останніх нагород. Тут, зокрема, вони оновлюють параметри NN, що прогнозує значення певного стану / дії).

Але, якщо ми оновлюємо нашу політику на основі збережених переходів, як, наприклад, при повторному перегляді, ми фактично оцінюємо дії з політики, яка вже не є поточною, оскільки вона розвивалася в часі, тим самим зробивши її більше не політичною.

Значення Q оцінюються, виходячи з майбутніх винагород, які ви отримаєте від штату відповідно до поточної політики агентів.

Однак це вже не відповідає дійсності, оскільки ви дотримуєтесь іншої політики. Тож вони використовують загальний позаполітичний метод, який досліджується на основі підходу, що викликає епсилон.

— данте
джерело

Дякую, але я все ще не розумію цього: якщо я використовую правило оновлення TD (0), запам'ятав перехід (s, a, r, s'), і використати цей досвід для відтворення; Тепер, припустимо, моя поточна політика говорить, що ви повинні взяти a'на себе s', тоді я позначаю, що Q(s, a)слід, r + Q(s', a')і робити градієнтний спуск. Я думаю, що я маю досвід відтворення стратегії. Чи є проблеми з процесом?

— DarkZero

Я вважаю, що проблема полягає в тому, що, оскільки ви зараз використовуєте іншу політику, ніж раніше, і що дію вибираєте за допомогою старої політики, ви не можете реально сказати, що це на політиці: правильно оцінити значення Q політики вам слід зробити багато дій з тим самим. Тут ви намагаєтеся оцінити поточну політику, використовуючи дію, яку не вдалося вибрати.

— данте

Тож чи можу я сказати, що я це роблю поза політики? Що буде результатом цього, теоретично?

— DarkZero

Тож, якщо я маю рацію, потрібно або використовувати методи поза політики, як-от Q-навчання, завжди вибирати максимальний Q як майбутню очікувану винагороду. Не має значення, яка зараз дія, тому що це властивість навчання Q, що якщо ви завжди обираєте максимум Q на майбутнє, то Q перейде до Q при оптимальній політиці; Або він повинен відверто слідувати одній політиці, вибирати кожну дію, включаючи майбутні за допомогою цієї політики, та робити оновлення політики. Це так?

— DarkZero

До цього часу я не можу зрозуміти, чому методи політики є хорошими. Поза межами політики, схоже, є більше свободи, і вона може сама виявити оптимальну політику. Не хотіли б також відповісти на stats.stackexchange.com/questions/265354/… ? Дуже дякую за всі дискусії.

— DarkZero