Що саме є завантажувальним при навчанні підкріплення?


23

Мабуть, у навчанні з підсиленням метод тимчасової різниці (TD) є методом завантаження. З іншого боку, методи Монте-Карло не є методами завантаження.

Що саме таке завантажувальна програма в RL? Що таке метод завантаження в RL?

Відповіді:


22

Завантаження в RL може бути прочитано як "використання одного або декількох оцінених значень на етапі оновлення для того ж виду оціненого значення".

У більшості правил оновлення TD ви побачите щось на зразок цього оновлення SARSA (0):

Q(s,a)Q(s,a)+α(Rt+1+γQ(s,a)Q(s,a))

Значення - це оцінка справжнього значення , а також називається цілью TD. Це метод завантаження, оскільки ми частково використовуємо значення Q для оновлення іншого значення Q. Існує невелика кількість реальних спостережуваних даних у вигляді , негайна винагорода за крок, а також у стані переходу .Rt+1+γQ(s,a)Q(s,a)Rt+1ss

Контраст з Монте-Карло, де еквівалентним правилом оновлення може бути:

Q(s,a)Q(s,a)+α(GtQ(s,a))

Де була загальною знижкою за дисконтування за час , припускаючи в цьому оновлення, що вона розпочалася в штаті , вживши заходів , а потім дотримувалася поточної політики до кінця епізоду. Технічно де - крок часу для термінальної винагороди та стану. Зокрема, це цільове значення взагалі не використовує жодних існуючих оцінок (з інших значень Q), воно використовує лише набір спостережень (тобто винагород) з навколишнього середовища. Як такий, він гарантовано буде несмещенной оцінкою істинного значення , так як це технічно зразок зGttsaGt=k=0Tt1γkRt+k+1TQ ( s , a ) Q ( s , a )Q(s,a)Q(s,a).

Основним недоліком завантажувального завантаження є те, що він є упередженим щодо будь-яких початкових значень (або ). Вони, швидше за все, помиляються, і система оновлення може бути нестабільною в цілому через занадто багато самонавіювання та недостатньо реальних даних - це проблема із позаполітичним навчанням (наприклад, Q-навчання) за допомогою нейронних мереж.Q(s,a)V(s)

Без завантажувального завантаження, використовуючи більш довгі траєкторії, натомість часто існує велика дисперсія , що, на практиці, означає, що вам потрібно більше зразків, перш ніж оцінки сходяться. Отже, незважаючи на проблеми з завантаженням, якщо це може бути спроможним працювати, він може навчитися значно швидше, і його часто віддають перевагу підходи під Монте-Карло.

Ви можете піти на компроміс між методами, заснованими на зразках Монте-Карло, та одноетапними методами TD, які завантажуються, використовуючи суміш результатів з різних траєкторій різниці. Це називається навчання TD ( )λ , і існує безліч специфічних методів, таких як SARSA ( ) або Q ( ).λλ


1
Це, мабуть, має бути іншим питанням. Однак, якщо ви хочете відповісти, чому саме і оцінка для ? Q ( s , a )Rt+1+γQ(s,a)Q(s,a)
nbro

1
@nbro: Тому що при зближенні (ці рівняння та більшість RL визначаються рівняннями Беллмана для MDP). Дивлячись на фактичну подію, що сталася, починаючи зі стану та дії , ви по суті вибираєте вибірку з цього очікування. Проблема полягає в тому, що значення, яке ви маєте для , ймовірно, ще не збіглося, тому вибірка є упередженою. s a Q ( S t + 1 , A t + 1 )Q(s,a)=E[Rt+1+γQ(St+1,At+1)|St=s,At=a]saQ(St+1,At+1)
Ніл Слейтер

1
Що перешкоджає використанню методів МС як фазового опіку , перш ніж переходити до завантажувального завантаження? Чи може це вважатись підзахистом ? λTD
n1k31t4

1
@ n1k31t4: Ніщо не заважає це робити, і це має бути правильним підходом RL. Це було б інакше, ніж TD ( ), але мотивоване однаковою ідеєю намагатися отримати хороші функції з обох алгоритмів. Вам потрібно спробувати це і порівняти ефективність навчання з TD ( ) - у вас все ще є гіпер-параметр для настройки, яка є кількістю епізодів, для яких слід запустити MC. Більш загальною версією було б дозволити змінюватися - почніть з і розкладіть його до або будь-яке значення, яке видається найбільш оптимальним. Однак у нього є 2 гіперпараметри, швидкість занепаду та ціль дляλ λ λ = 1 0,4 λλλλλ=10.4λ
Ніл Слейтер

@NeilSlater при використанні завантажувальної програми може зближуватися? Я не можу зрозуміти, чому це слід, оскільки Q (s ', a') - це лише довільна здогадка, яка потім спотворює оцінку для Q (s, a). Крім того, чому MC має велику дисперсію порівняно з TD?
d56

4

Взагалі завантаження в RL означає, що ви оновлюєте значення на основі деяких оцінок, а не на деяких точних значеннях. Напр

Поточні оновлення політики Монте-Карло:

V(St)=V(St)+α(GtV(St))

TD (0) Оновлення оцінки політики:

V(St)=V(St)+α(Rt+1+γV(St+1)V(St))

У TD (0) повернення, починаючи зі стану , оцінюється (завантажується) тоді як у МС ми використовуємо точне повернення .sRt+1+γV(St+1) Gt

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.