Підсилення навчання в нестаціонарному середовищі [закрито]

Q1: Чи існують загальноприйняті або прийняті методи поводження з нестаціонарним середовищем у навчанні підкріплення взагалі?

Q2: У моєму сітковому світі я міняю функцію винагороди, коли змінюється стан. Кожен епізод винагород повертається до початкового стану. Все, що я хочу, щоб мій агент дізнався, це "Не повертайтеся, якщо вам це не потрібно", однак це робить середовище нестаціонарним. Чи може / має бути це дуже просте правило включене в модель MDP, і як? Чи Q-навчання є найкращим рішенням для вирішення цієї проблеми? Будь-які пропозиції чи доступні приклади?

Q3: Я розглядав Q-навчання з переглядом досвіду як рішення для роботи з нестаціонарними середовищами, оскільки воно декоррегулює послідовні оновлення. Це правильне використання методу чи більше стосується того, щоб зробити навчання більш ефективним? І я бачив, що він використовується лише з наближенням значення. Я не впевнений, що це надмірне використання його для простого дискретизованого простору станів, наприклад, gridworld, чи є інша причина цього.

Будь ласка, не соромтесь відповідати або коментувати, навіть якщо ви не можете вирішити всі питання.

— Волтроніка
джерело

Q1: Чи існують загальноприйняті або прийняті методи поводження з нестаціонарним середовищем у навчанні підкріплення взагалі?

Більшість основних агентів RL - це онлайн, і онлайн-навчання зазвичай може вирішувати нестаціонарні проблеми. Крім того, правила оновлення оцінювальних значень стану та дій у проблемах управління зазвичай записуються для нестаціонарних цілей, оскільки цілі вже змінюються в міру вдосконалення політики. Це нічого складного, просто використання коефіцієнта навчання в оновленнях при оцінці значень, фактично котяче геометричне середнє значення, а не усереднення за всю історію не зваженим способом. $\alpha$

Однак це стосується довготривалої нестаціонарності, наприклад, проблеми, що змінюються між епізодами, або протягом ще більш тривалого часового масштабу. Ваш опис виглядає більше так, як ви хочете змінити структуру винагород на основі дій, які вчинив агент, за короткий термін. Таке динамічне реагування на дії краще охарактеризувати як інший більш складний MDP, а не як "нестаціонарність" у межах більш простого MDP.

Агент не може дізнатися зміни в середовищі, яких він ще не відібрав, тому зміна структури винагород не завадить агенту повернутися до раніше відвіданих станів. Якщо ви не використовуєте в агенті щось на зразок RNN, агент не матиме «пам'яті» того, що відбулося раніше в епізоді, крім того, що представлено в поточному стані (можливо, використовуючи RNN, робить прихований шар частини RNN держави). У кількох епізодах, якщо ви використовуєте табличний агент Q-навчання, він просто дізнається, що певні стани мають низьке значення, він не зможе дізнатися, що друге або третє відвідування держави викликає цей ефект, оскільки він не має спосіб представити ці знання. Він не зможе адаптуватися до змін досить швидко, щоб дізнатися в Інтернеті та середині серіалу.

Q2: У моєму сітковому світі я міняю функцію винагороди, коли змінюється стан. Все, що я хочу, щоб мій агент дізнався, це "Не повертайтеся, якщо вам це не потрібно", однак це робить середовище нестаціонарним.

Якщо це все, що потрібно агенту, щоб навчитися, можливо, це може бути заохочено відповідною структурою винагород. Перш ніж ви зможете це зробити, вам потрібно зрозуміти, що означає "насправді потрібно" та наскільки чітко це має бути логічно. Ви можете бути в порядку, хоча просто призначивши певний штраф за відвідування будь-якого місця, яке агент вже відвідував або недавно відвідав.

Чи може / має бути це дуже просте правило включене в модель MDP, і як?

Так, ви повинні додати інформацію про відвідувані місця у штаті. Це негайно зробить вашу модель стану більш складною, ніж простий світ сітки, збільшивши розмірність проблеми, але це неминуче. Більшість проблем у реальному світі дуже швидко переростають приклади іграшок, надані для навчання поняттям РЛ.

Однією з альтернатив є розгляд проблеми як частково спостережуваного процесу рішення Маркова (POMDP) . У такому випадку "справжній" стан все-таки включатиме всю необхідну історію для обчислення винагород (а оскільки це проблема з іграшками на комп'ютері, ви все одно повинні якось представляти її), але агент може намагатися вчитися з обмеженими можливостями знання про державу, все, що ви дозволяєте їй спостерігати. Загалом це набагато складніший підхід, ніж розширення представництва держави, і я б його тут не рекомендував. Однак, якщо вам ідея цікава, ви можете використати свою проблему для дослідження POMDP. Ось нещодавній документ (від команди Deep Mind від Google, 2015), який розглядає два алгоритми RL, поєднані з RNN, щоб вирішити POMDP.

Q3: Я розглядав Q-навчання з переглядом досвіду як рішення для роботи з нестаціонарними середовищами, оскільки воно декоррегулює послідовні оновлення. Це правильне використання методу чи більше стосується того, щоб зробити навчання більш ефективним?

Перегляд досвіду не допоможе у нестаціонарних умовах. Насправді це може погіршити продуктивність в них. Однак, як уже зазначалося, ваша проблема полягає не в нестаціонарному середовищі, а в обробці більш складної динаміки стану.

Що вам може знадобитися зробити, це вивчити наближення функції, якщо кількість станів зросте до достатньо великої кількості. Наприклад, якщо ви хочете обробити будь - яке зворотне відстеження та маєте складне правило для зміни винагороди, яке відстежує кожне відвідуване місце, то ваш стан може змінитися з одного номера місцеположення на карту, де відображаються відвідувані місця. Так, наприклад, вона може перейти з станів для світу сітки до стану стану із відображенням відвідуваних квадратів. Це занадто високо, щоб відстежувати в таблиці значень, тому для оцінки значень стану замість цього ви зазвичай використовуєте нейронну мережу (або згорткову нейронну мережу). $64$ $8 \times 8$ $2^{64}$

Завдяки оцінювачу функцій перегляд досвіду дуже корисний, оскільки без нього процес навчання, ймовірно, буде нестабільним. Нещодавній підхід DQN для гри в ігри Atari з цієї причини використовує перегляд досвіду.

— Ніл Слейтер
джерело

Якщо навколишнє середовище нестаціонарне, то як ви ставитеся до того, що на прикладі світу сітки перебування в стані в момент часу t = 1 не те саме, що перебувати в такому стані при t = 2? Якщо ви ставитесь до них як до окремих станів, то, напевно, розмірність простору вашого стану просто вибухне?

— trytolearn

@tryingtolearn: Вся суть держави Маркова полягає в тому, що вона фіксує всі важливі деталі того, як буде просуватися МДП з цього моменту. Як правило, перебуваючи в стані при t = 1, не відрізняється від перебування в одному стані при t = 2, з точки зору очікуваної майбутньої винагороди та переходів держави. Якщо ви закінчите правила, які базуються на значенні t, тоді ви ставите t у стан. Це може статися, якщо ви можете отримати винагороду на будь-якому етапі часу, але кількість часових кроків обмежена - епізод завжди закінчується, наприклад, t = 10. У такому випадку знання вашого останнього часу може бути важливим

— Ніл Слейтер

@NeilSlater Ви можете розширити ідеї POMDP та RNN у своїй відповіді? Вони звучать цікаво. І, якщо можливо, дайте важливі джерела, бо іноді важко орієнтуватися в літературі. Мені дуже не подобається ідея збереження послідовності відвідуваних держав, хоча це єдине, про що я міг би придумати поки що, тому шукаю інші варіанти. Таким чином модель стає надто складною, враховуючи, що мені потрібно ввести дуже просте правило. Я не впевнений, чи пропускаю я щось дуже очевидне чи просто не використовую правильну модель та формулювання.

— Волтроніка

@NeilSlater Не можна цьому допомогти, використовуючи такі способи, як методи градієнта політики? На практиці, чи трапляється ви знати, що є стандартом для вирішення подібних проблем?

— trytolearn

@Voltronika Я розширив відповідь, додавши абзац про POMDP. Зауважте, що постановка вашої проблеми як POMDP значно ускладнює роботу та вирішення, ніж розширення стану, щоб включити відповідну пам'ять відвіданих місць. Тому я пропоную вам розібратися в тому, що якщо мета вивчення POMDP є метою.

— Ніл Слейтер

Q1: Q навчання - це онлайн-алгоритм навчання, який добре працює зі стаціонарним середовищем. Він також може бути використаний з нестаціонарною моделлю за умови, що модель (функція винагороди та ймовірність переходу) не змінюється швидко.

— Халид Ібрагім
джерело