Яка різниця між навчанням підкріплення без моделей та моделей?


29

Яка різниця між навчанням підкріплення без моделей та моделей?

Мені здається, що будь-який навчається без моделей, який навчається шляхом спроб та помилок, може бути переосмислений як модельний. У такому випадку, коли б учні, що не мають моделей, були доречними?


Дивіться також цю відповідь: qr.ae/TUtHbv .
nbro

Як ви маєте на увазі, що ви можете переробити модель, що не навчається моделей, на основі моделі?
HelloGoodbye

Відповіді:


14

Модельне підкріплення навчання має агент намагатися зрозуміти світ та створити модель для його представлення. Тут модель намагається захопити 2 функції, функцію переходу від станів і функція винагороди . З цієї моделі агент має посилання і може відповідно планувати.TR

Однак вивчати модель не потрібно, і агент може замість цього навчитися політиці безпосередньо, використовуючи такі алгоритми, як Q-навчання або градієнт політики.

Проста перевірка, чи алгоритм RL базується на моделі чи не має моделі:

Якщо, дізнавшись, агент може передбачити, яким буде наступний стан та винагорода, перш ніж здійснити кожну дію, це алгоритм RL на основі моделі.

Якщо це не вдається, то це алгоритм, що не вимагає моделей.


2
з твоїх слів, "не потрібно вчитися моделі", і моє запитання: чому б хто-небудь взагалі застосовував модельний підхід?
Vin

4
Один великий приклад, про який я можу придумати, - це коли ви хочете, щоб агент дізнався про його оточення, фактично нічого не оптимізуючи. Це частина проблеми постійного навчання. Вам потрібно побудувати внутрішню модель на зразок "Я натискаю на стіни, коли мій датчик відстані читає стіну близько", тоді цей агент може узагальнити цю інформацію для кількох завдань, якщо вони виникли.
Яден Травник

2
дякую @Jaden Travnik. я розумію, чому було б корисно вивчити уявлення про навколишнє середовище ("я потрапляю в стіни, коли моя відстань читає стіну близько"), не вирішуючи якоїсь задачі (наприклад, орієнтуючись на кухню). але чому б це вважалося безмодельним RL , а не навчальним завданням під наглядом ванілі?
vin

2
Це не було б під контролем навчання, оскільки немає мічених даних. Агент не мав би уявлення про те, що означають сигнали, тому не міг визначити датчик відстані від термометра. Те, що вчитель вивчає, - це передбачення сигналів, заснованих на інших сигналах, що є самою моделлю свого світу.
Яден Травник

2
при модельному підході агент вчиться прогнозувати наступний стан, згідно з вашим оригінальним поясненням. це робить, вивчаючи <x, y>, де x є (s1, дія) і y є (s2, нагорода). Вибачте, якщо я неправильно трактую, але хіба це не контролюване навчання?
Vin

12

Яка різниця між навчанням підкріплення без моделей та моделей?

У навчанні підкріплення терміни "на основі моделі" та "без моделей" не стосуються використання нейронної мережі або іншої статистичної моделі навчання для прогнозування значень або навіть для прогнозування наступного стану (хоча останні можуть використовуватися як частина алгоритму, заснованого на моделі, і називатися "моделлю" незалежно від того, алгоритм базується на моделі чи не є модель).

Натомість, термін суворо посилається на те, чи використовує агент перед тим, як під час навчання чи дії діє передбачення реакції навколишнього середовища. Агент може використовувати одне передбачення з моделі наступної винагороди та наступного стану (зразок), або він може запитати модель щодо очікуваної наступної винагороди або повного розподілу наступних станів та наступних нагород. Ці прогнози можуть бути надані повністю поза навчальним агентом - наприклад, за допомогою комп'ютерного коду, який розуміє правила гри в кубики або настільну гру. Або їх може дізнатися агент, і в цьому випадку вони будуть приблизними.

Тільки тому, що є реалізована модель середовища, не означає, що агент RL є "заснованим на моделі". Щоб кваліфікуватись як "заснована на моделі", алгоритми навчання повинні чітко посилатися на модель:

  • Алгоритми, які суто вибірки з досвіду, такі як Monte Carlo Control, SARSA, Q-learning, Actor-Critic, є алгоритмами RL, що не належать до моделей. Вони покладаються на реальні вибірки з навколишнього середовища і ніколи не використовують генеровані прогнози наступного стану та наступної винагороди для зміни поведінки (хоча вони можуть вибирати з пам'яті досвіду, яка близька до того, що є моделлю).

  • Алгоритми на основі архетипічної моделі - це динамічне програмування (ітерація політики та ітерація вартості) - всі вони використовують прогнози моделі або розподіл наступного стану та винагороди для обчислення оптимальних дій. Зокрема, в динамічному програмуванні модель повинна забезпечувати ймовірності переходу стану та очікувану винагороду від будь-якої пари, дії. Зауважте, це рідко є вивченою моделлю.

  • π(s)=argmaxas,rp(s,r|s,a)(r+v(s))p(s,r|s,a)rsasp(s,r|s,a)

Література RL розрізняє "модель" як модель середовища для "модельного" та "модельного" навчання та використання статистичних учнів, наприклад нейронних мереж.

У RL нейронні мережі часто використовуються для вивчення та узагальнення значущих функцій, таких як значення Q, яке прогнозує загальний прибуток (сума дисконтованих винагород) за допомогою пари стану та дії. Така навчена нейронна мережа часто називається "моделлю", наприклад, під наглядом під керівництвом. Однак у літературі щодо RL ви побачите термін "аппроксиматор функції", який використовується для такої мережі, щоб уникнути неоднозначності.

Мені здається, що будь-який навчається без моделей, який навчається шляхом спроб та помилок, може бути переосмислений як модельний.

Я думаю, що тут ви використовуєте загальне розуміння слова "модель", щоб включити будь-яку структуру, яка робить корисні прогнози. Це стосується, наприклад, таблиці значень Q у SARSA.

Однак, як пояснено вище, цей термін не використовується в RL. Тож, хоча ваше розуміння того, що RL будує корисні внутрішні уявлення, є правильним, ви не є технічно правильним, що це може бути використане для перетворення кадрів між "без моделей" як "на основі моделі", оскільки ці терміни мають дуже специфічне значення в RL .

У такому випадку, коли б учні, що не мають моделей, були доречними?

Як правило, з сучасним сучасним рівнем роботи в RL, якщо у вас немає точної моделі, яка є частиною визначення проблеми, підходи без моделей часто є вищими.

Існує великий інтерес до агентів, які будують прогнозні моделі навколишнього середовища, і це робить "побічний ефект" (в той час як алгоритм без моделей) все ще може бути корисним - він може регулювати нейронну мережу або допомогти виявити ключові прогнозні дії функції, які також можна використовувати в мережах політики або цінностей. Однак агенти на основі моделей, які вивчають власні моделі планування, мають проблему, що неточність у цих моделях може спричинити нестабільність (неточності примножуються далі в майбутньому, на який виглядає агент). Деякі перспективні вказівки робляться за допомогою агентів, заснованих на уяві та / або механізмів для вирішення того, коли і скільки довіряти вивченій моделі під час планування.

Зараз (у 2018 році), якщо у вас виникнуть проблеми в реальному світі в навколишньому середовищі без чітко відомої моделі на початку, тоді найбезпечнішою ставкою є використання підходу без моделей, такого як DQN або A3C. Це може змінитися, оскільки поле швидко рухається, а нові складніші архітектури цілком можуть стати нормою через кілька років.


1
Невелика корекція, як правило, терміни "заснована на моделі" або "модель вільна" не використовуються для алгоритмів планування, таких як MCTS. Він використовується лише для класифікації алгоритмів навчання.
Мігель Сараїва

@MiguelSaraiva: Я не впевнений у цьому на 100%, але видалив посилання на MCTS. З іншого боку, де ви б розмістили DynaQ щодо цього обмеження використання термінів? Я думаю, що стає складним, коли всі алгоритми поділяють такий загальний погляд на модель MDP та поліпшення політики, щоб сказати, де межі між плануванням та навчанням.
Ніл Слейтер

Я можу помилитися, я початківець у цій місцевості. Я просто пам'ятаю, як викладач з місця робив цей коментар після того, як я зробив те саме зауваження.
Мігель Сараїва

5

assr

Основна мета агента - зібрати найбільшу суму винагороди "в довгостроковій перспективі". Для цього агенту необхідно знайти оптимальну політику (приблизно, оптимальну стратегію поведінки в навколишньому середовищі). Взагалі політика - це функція, яка, враховуючи поточний стан навколишнього середовища, виводить дію (або розподіл ймовірності над діями, якщо політика стохастична ) для виконання у середовищі. Таким чином, політика може розглядатися як "стратегія", яку використовує агент для поведінки в цьому середовищі. Оптимальна політика (для даного середовища) - це політика, яка при дотриманні змусить агента зібрати найбільшу суму винагороди в довгостроковій перспективі (що є метою агента). Таким чином, у РР ми зацікавлені у пошуку оптимальної політики.

Середовище може бути детермінованим (тобто, приблизно, однакова дія в тому ж самому стані призводить до того ж наступного стану, протягом усіх етапів часу) або стохастичним (або недетермінованим), тобто якщо агент здійснює дію в певний стан, наступний стан оточуючого середовища не завжди може бути однаковим: існує ймовірність того, що це буде певний стан чи інший. Звичайно, ці невизначеності ускладнять завдання пошуку оптимальної політики.

У RL проблема часто математично формулюється як процес рішення Маркова (MDP). MDP - це спосіб представити "динаміку" оточення, тобто те, як середовище буде реагувати на можливі дії, які може здійснити агент у певному стані. Точніше, MDP оснащений функцією переходу (або "перехідною моделлю"), яка є функцією, яка, враховуючи поточний стан навколишнього середовища та дії (які може здійснити агент), виводить ймовірність переходу до будь-якого наступних штатів. Функція винагородитакож пов'язаний з MDP. Інтуїтивно функція винагороди видає винагороду, враховуючи поточний стан навколишнього середовища (і, можливо, дію, яку вживає агент та наступний стан навколишнього середовища). У сукупності функції переходу та винагороди часто називають моделлю середовища. Підсумовуючи, Програма MDP - це проблема, а рішення проблеми - це політика. Крім того, "динаміка" середовища регулюється функціями переходу та винагороди (тобто "моделлю").

Однак ми часто не маємо MDP, тобто у нас немає функцій переходу та винагороди (з MDP, пов'язаного з оточенням). Отже, ми не можемо оцінити політику з MDP, оскільки вона невідома. Зауважте, що, як правило, якби у нас були функції переходу та винагороди MDP, пов'язані з оточенням, ми могли б використовувати їх та отримати оптимальну політику (використовуючи алгоритми динамічного програмування).

За відсутності цих функцій (тобто, коли MDP невідомий), для оцінки оптимальної політики агенту необхідно взаємодіяти з оточенням та спостерігати за реакціями середовища. Це часто називають "проблемою навчального підкріплення", тому що агенту потрібно буде оцінити політику шляхом посилення своїх переконань щодо динаміки навколишнього середовища. З часом агент починає розуміти, як середовище реагує на свої дії, і тому може почати оцінювати оптимальну політику. Таким чином, у проблемі RL агент оцінює оптимальну політику поведінки у невідомому (або частково відомому) середовищі, взаємодіючи з нею (використовуючи підхід "проб і помилок").

У цьому контексті на основі моделіалгоритм - це алгоритм, який використовує функцію переходу (і функцію винагороди) для оцінки оптимальної політики. Агент може мати доступ лише до наближення функції переходу та функцій нагородження, які може дізнатися агент, коли він взаємодіє з оточенням, або він може бути наданий агенту (наприклад, іншим агентом). Загалом, в алгоритмі, заснованому на моделі, агент може потенційно передбачити динаміку середовища (під час або після фази навчання), оскільки він має оцінку функції переходу (і функції винагороди). Однак зауважте, що функції переходу та винагород, які використовує агент для поліпшення своєї оцінки оптимальної політики, можуть бути лише наближеннями "справжніх" функцій. Отже, оптимальної політики ніколи не можна знайти (через ці наближення).

Безмодельний алгоритм являє собою алгоритм , який оцінює оптимальну політику без використання або оцінки динаміки (перехід і винагороди функцій) навколишнього середовища. На практиці алгоритм без моделей або оцінює "функцію значення" або "політику" безпосередньо з досвіду (тобто взаємодії між агентом і середовищем), не використовуючи ні функції переходу, ні функції винагороди. Функцію значення можна розглядати як функцію, яка оцінює стан (або дію, здійснену в стані), для всіх станів. З цієї функції значення може бути виведена політика.

На практиці один із способів розрізнити алгоритми на основі моделей або моделей - це переглянути алгоритми та побачити, чи вони використовують функцію переходу чи винагороди.

Наприклад, розглянемо головне правило оновлення в алгоритмі Q-навчання :

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))

Rt+1

Тепер розглянемо головне правило оновлення алгоритму вдосконалення політики :

Q(s,a)sS,rRp(s,r|s,a)(r+γV(s))

p(s,r|s,a)


2

Без моделей RL

У режимі RL без моделей агент не має доступу до моделі навколишнього середовища. Під оточенням я маю на увазі функцію, яка передбачає перехід стану та винагороду.

Станом на час написання, безмодельні методи користуються більшою популярністю і широко вивчаються.

RL на основі моделі

У RL на основі моделі агент має доступ до моделі середовища.

Основна перевага полягає в тому, що це дозволяє агенту планувати заздалегідь, продумуючи заздалегідь. Агенти переносять результати від планування заздалегідь до вивченої політики. Відомий приклад моделювання RL на основі моделі - AlphaZero .

Основним недоліком є ​​те, що багато разів уявлення про навколишнє середовище зазвичай не доступні.


Нижче наводиться невичерпна систематика алгоритмів RL, яка може допомогти вам краще візуалізувати ландшафт RL.

введіть тут опис зображення


1

Згідно з OpenAI - Видами алгоритмів RL , алгоритми, що використовують модель середовища, тобто функцію, яка прогнозує переходи стану та винагороду, називаються методами, що базуються на моделях , а ті, які не називаються модельними . Цю модель можна або надати агенту, або дізнатись агентом.

Використання моделі дозволяє агенту планувати, заздалегідь продумуючи, бачити, що станеться для цілого ряду можливих варіантів, і чітко вирішувати між його варіантами. Це може бути корисно, якщо стикаєтеся з проблемами, які потребують більш тривалого мислення. Один із способів здійснити планування - це використовувати якийсь пошук дерев, наприклад, пошук по дереву Монте-Карло (MCTS), або - які, я думаю, також можна було використати - варіанти швидкого вивчення випадкового дерева (RRT). Див. Наприклад агентів, які уявляють та планують .

Потім агент може перенаправити результати з планування заздалегідь у вивчену політику - це відоме як експертна ітерація.

Модель також може бути використана для створення змодельованого або "уявного" середовища, в якому стан оновлюється за допомогою моделі, і змушує агента вчитися всередині цього середовища, наприклад у World Models .

У багатьох реальних сценаріях модель обґрунтування правдивого середовища не доступна агенту. Якщо агент хоче використовувати модель в цьому випадку, він повинен вивчити модель, що може бути складним з кількох причин.

Однак є випадки, коли агент використовує модель, яка вже відома, і, отже, не потрібно вивчати модель, як, наприклад, у AlphaZero , де модель надходить у формі правил гри.


1

Хоча є кілька хороших відповідей, я хочу додати цей параграф із « Підсилення навчання: вступ» , сторінка 303, для більш психологічного погляду на різницю.

Розмежування алгоритмів навчання на основі моделей та посилених моделей відповідає розрізненню психологами між звичним та цілеспрямованим контролем вивчених моделей поведінки. Звички - це моделі поведінки, що спрацьовують за допомогою відповідних стимулів, а потім виконуються більш-менш автоматично. Поведінка, орієнтована на ціль, відповідно до того, як психологи використовують словосполучення, є цілеспрямованою в тому сенсі, що вона контролюється знанням значення цілей та взаємозв'язку між діями та їх наслідками. За звичками іноді говорять, що вони керуються допоміжними стимулами, тоді як поведінка, орієнтована на ціль, контролюється своїми наслідками (Dickinson, 1980, 1985). Перевага від цілі має те, що воно може швидко змінити поведінку тварини, коли навколишнє середовище змінює спосіб реагування на дії тварини. Хоча звична поведінка швидко реагує на вклад із звичного середовища, воно не в змозі швидко пристосуватися до змін у оточенні.

Він продовжує їхати звідти і має приємний приклад згодом.

Я думаю, що головний момент, який не завжди був пояснений в інших відповідях, полягає в тому, що при безмодельному підході вам все-таки потрібне якесь середовище, щоб сказати вам, яка нагорода пов'язана з вашими діями. Велика різниця полягає в тому, що НЕ потрібно зберігати інформацію про модель. Ви надаєте оточенню обрану дію, оновлюєте свою передбачувану політику і про це забуваєте. З іншого боку, в модельних підходах вам або потрібно знати історію переходів станів, як у динамічному програмуванні, або вам потрібно вміти обчислювати всі можливі наступні стани та пов'язані з ними винагороди з теперішнього стану.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.