У статті, що представляє DQN " Гра в Атарі з глибоким зміцненням навчання ", вона згадувала:
Зауважте, що при навчанні за допомогою перегляду досвіду необхідно вчитися поза політикою (оскільки наші поточні параметри відрізняються від тих, які використовуються для створення вибірки), що мотивує вибір Q-навчання.
Я не зовсім зрозумів, що це означає. Що робити, якщо ми використовуємо SARSA і пам'ятаємо про дію, a'
яку ми маємо зробити в s'
нашій пам'яті, а потім вибирати з неї партії та оновлювати Q, як ми це робили в DQN? І чи можуть акторсько-критичні методи (для конкретних A3C) використовувати досвід повторної роботи? Якщо ні, то чому?
(s, a, r, s')
, і використати цей досвід для відтворення; Тепер, припустимо, моя поточна політика говорить, що ви повинні взятиa'
на себеs'
, тоді я позначаю, щоQ(s, a)
слід,r + Q(s', a')
і робити градієнтний спуск. Я думаю, що я маю досвід відтворення стратегії. Чи є проблеми з процесом?