Коли методи Монте-Карло віддають перевагу тимчасовим різницям?


12

Останнім часом я багато займався дослідженнями в навчанні зміцнення. Я слідував за навчанням зміцнення Саттона і Барто : Вступ до більшості цього.

Я знаю, що таке процеси прийняття рішень Маркова та як навчання динамічного програмування (DP), Монте-Карло та часової різниці (DP) можна їх вирішити. Проблема у мене в тому , що я не бачу , коли Монте - Карло буде кращим варіантом по порівнянні з TD-навчання.

Основна відмінність між ними полягає в тому, що TD-навчання використовує завантажувальний інструмент для наближення функції до значення, а Монте-Карло використовує середнє для цього. Я просто не можу придумати сценарій, коли це кращий шлях.

Я здогадуюсь, що це може мати щось спільне з продуктивністю, але я не можу знайти джерел, які б це підтвердили.

Чи щось мені не вистачає, чи взагалі кращий варіант навчання у форматі TD?

Відповіді:


9

Основна проблема навчання TD і DP полягає в тому, що їх крокові оновлення упереджені щодо початкових умов параметрів навчання. Процес завантаження зазвичай оновлює функцію або пошук Q (s, a) на значення наступника Q (s ', a'), використовуючи будь-які поточні оцінки в останньому. Зрозуміло, що на самому початку навчання ці оцінки не містять жодної інформації від реальних нагород чи переходів держави.

Якщо навчання працює за призначенням, то ухил зменшить асимптотично за кілька ітерацій. Однак упередження може спричинити значні проблеми, особливо для позаполітичних методів (наприклад, Q Q Learning) та при використанні функцій-апроксиматорів. Це поєднання настільки ймовірно, що не зможе сходитися, що його називають смертельною тріадою в Саттон і Барто .

Методи контролю в Монте-Карло не страждають від цієї упередженості, оскільки кожне оновлення проводиться з використанням справжнього зразка того, яким повинен бути Q (s, a). Однак методи Монте-Карло можуть страждати від великої дисперсії, а це означає, що для досягнення однакового ступеня навчання для порівняння з ТД потрібно більше зразків.

На практиці навчання ТД виявляється більш ефективним, якщо проблеми зі смертельною тріадою можна подолати. Останні результати, що використовують досвід повторного відтворення та інсценізовані "заморожені" копії оцінювачів, забезпечують робочі місця, які вирішують проблеми - наприклад, таким чином було побудовано студента DQN для ігор Atari.

Є також середнє місце між ТД та Монте-Карло. Можна побудувати узагальнений метод, який поєднує траєкторії різної довжини - від одномоментної ТД до закінчення епізодного циклу в Монте-Карло - та поєднує їх. Найпоширеніший варіант цього - TD (λ) навчання, де λ є параметром від 0 (ефективно одноетапне навчання ТД) до 1(ефективно навчання в Монте-Карло, але з приємною особливістю, що його можна використовувати в постійних проблемах). Як правило, значення між0 і 1 робить найефективнішим агентом навчання - хоча як і багато гіперпараметри, найкраща ціна використання залежить від проблеми.

Якщо ви використовуєте метод на основі значень (на відміну від методу, що ґрунтується на політиці), то на практиці навчання TD зазвичай використовується більше на практиці, або метод комбінації TD / MC, наприклад TD (λ), може бути ще кращим.

З точки зору "практичної переваги" для MC? Навчання в Монте-Карло концептуально просте, надійне та просте у здійсненні, хоча й часто повільніше, ніж TD. Як правило, я б не використовував його для двигуна навчального контролера (якщо тільки не поспішаю реалізувати щось для простого середовища), але я серйозно розглядаю це для оцінки політики, щоб порівняти, наприклад, кілька агентів - це пов'язано з тим, що він є неупереджений захід, що важливо для тестування.


По-перше, дякую за відповідь. Я бачу, як у теорії може бути віддається перевага об'єктивного алгоритму перед упередженим. Але з огляду на високу дисперсію, яку Монте-Карло може дати на початку тренувань, я не бачу, як це насправді має значення. І Монте-Карло, і TD почнеться з неточних наближень, і з того, що я прочитав, TD зблизиться набагато швидше. Я просто не можу придумати практичну перевагу використання Монте-Карло. (Кумедних смертоносної тріади можна уникнути)
Енн-Дірк

1
@ Енн-кортик Якщо ви використовуєте метод в основі вартості (на відміну від однієї на основі політик), то навчання TD є зазвичай використовується більш на практиці, або TD / MC комбінований метод , таких як TD (X) може бути навіть краще. Я не впевнений, що ви маєте на увазі під «практичною перевагою»? Навчання в Монте-Карло концептуально просте, надійне та просте у виконанні. Як правило, я б не використовував його для двигуна навчального контролера (якщо тільки не поспішаю реалізувати щось для простого середовища), але я серйозно розглядаю це для оцінки політики, щоб порівняти, наприклад, кілька агентів.
Ніл Слейтер

@Neul Slater Aaaah Я бачу ... Таку відповідь я шукав :) Дякую за вашу допомогу!
Енн-Дірк

-1

По суті це залежить від вашого оточення.

TD використовує властивість Маркова, тобто майбутні стани процесу покладаються лише на поточний стан, і тому, як правило, більш ефективно використовувати TD в середовищі Маркова.

MC не використовує властивість Markov, оскільки вона базується на всьому навчальному процесі, який піддається немарківському середовищу.


Я не думаю, що це правильно чи, принаймні, очевидно. Властивість Маркова в контексті РЛ асоціюється зі станами. Чи можете ви уточнити, чому алгоритми МС будуть працювати краще, коли властивість Маркова не буде задоволена?
nbro

Щоб було зрозуміло, я мав на увазі ефективність. Якщо ви можете використовувати властивість Маркова, то TD вигідніше, оскільки ви можете запустити в будь-якому даному стані, вжити і діяти, і результат завжди буде однаковим, тому ви можете обчислити помилку TD з високим рівнем достовірності. Якщо у вас не є MDP, якщо ви отримуєте стан, який частково спостерігається, то TD може бути не дуже ефективним. Це не означає, що ви не можете використовувати TD в не-MDP, ви можете, але це може бути неефективно і може отримати кращий успіх з TD лямбда, а не TD (1).
BigBadMe

"Якщо ви можете використовувати властивість Маркова, тоді TD є вигідним, оскільки ви можете запустити в будь-якому даному стані, вжити і діяти, і результат завжди буде однаковим", це буде однаково, якщо середовище буде детермінованим. Що це стосується власності Маркова? Я не отримую ваших претензій. Де ви читали, що ТД буде більш неефективним, ніж МС, наприклад, POMDP?
nbro

1
MDP не є детермінованими за визначенням. Детерміноване середовище зазвичай визначається як: якщо агент знаходиться в станіс і вживає заходів а, то наступний стан с'завжди однакова, незалежно від того, який крок часу . Інакше стохастично. ПДР - це лише спосіб представлення довкілля та його динаміки.
nbro

1
"якщо ви стан S, то всі події, що відбувалися раніше, визначаються цим станом, і якщо ви вживатимете дії a, то ви завжди отримаєте один і той же стан S 'і винагороду r.", ні , це неправда, конкретно, частина, яка не відповідає дійсності, - це "якщо ти вживеш дії a, то ти завжди отримаєш однаковий штат S" та винагороду r. ". Це справедливо лише в тому випадку, якщо MDP має детерміновану функцію переходу та винагороди (але це не завжди так).
nbro
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.