Запитання з тегом «reinforcement-learning»

Питання, пов'язані з навчанням, керованим зовнішнім позитивним підкріпленням або негативним сигналом зворотного зв’язку або обома, коли засвоєння та використання вивченого поки що відбувається одночасно.

6
Яка різниця між навчанням підкріплення без моделей та моделей?
Яка різниця між навчанням підкріплення без моделей та моделей? Мені здається, що будь-який навчається без моделей, який навчається шляхом спроб та помилок, може бути переосмислений як модельний. У такому випадку, коли б учні, що не мають моделей, були доречними?

1
Яке співвідношення між методами Q-навчання та градієнтами політики?
Наскільки я розумію, Q-навчання та градієнти політики (PG) - це два основні підходи, що використовуються для вирішення проблем RL. У той час як Q-навчання має на меті передбачити винагороду за певну дію, здійснену в певному стані, градієнти політики безпосередньо передбачають саму дію. Однак обидва підходи здаються мені однаковими, тобто прогнозування …

4
Як поводитися з недійсними рухами в навчанні підкріплення?
Я хочу створити AI, який може грати з п’яти в ряд / гомоку. Як я вже згадував у назві, я хочу використовувати для цього підкріплення. Я використовую метод градієнта політики , а саме REINFORCE з базовою лінією. Для наближення значення та політики я використовую нейронну мережу . Він має згорнуті …

2
Як визначити стани в навчанні підкріплення?
Я вивчаю підкріплення навчання та його варіанти. Я починаю розуміти, як алгоритми працюють і як вони застосовуються до MDP. Чого я не розумію, це процес визначення станів ПДР. У більшості прикладів та навчальних посібників вони представляють щось просте, як квадрат у сітці чи подібне. Для складніших проблем, таких як робот, …

2
Що таке ефективність вибірки та як можна використовувати важливе значення для вибірки для її досягнення?
Наприклад, заголовок цієї статті гласить: "Зразок ефективного акторського критику з переглядом досвіду". Що таке ефективність вибірки та як можна використовувати важливе значення для вибірки для її досягнення?

3
Чи є якісь додатки навчання підкріплення, крім ігор?
Чи є спосіб навчити підкріплення навчання в додатках, крім ігор? Єдині приклади, які я можу знайти в Інтернеті, - це ігрові агенти. Я розумію, що VNC контролює вхід в ігри через мережу підкріплення. Чи можна встановити це за допомогою програмного забезпечення CAD?

3
Як реалізувати обмежений простір дій у навчанні підкріплення?
Я кодую навчальну модель підкріплення агентом РРО завдяки дуже гарній бібліотеці Tensorforce , побудованій на вершині Tensorflow. Перша версія була дуже простою, і тепер я занурююсь у складніші умови, коли всі дії недоступні на кожному кроці. Скажімо, існує 5 дій, і їх наявність залежить від внутрішнього стану (який визначається попередньою …

1
Чому ви не бачите шарів, що відпадають, на прикладах навчання з підкріпленням?
Я дивився на навчання з підкріпленням, а конкретно - займався створенням власних середовищ для використання з AI OpenAI Gym AI. Я використовую агенти проекту stable_baselines для тестування з ним. Одне, що я помітив практично у всіх прикладах RL, - це те, що ніколи не буває жодних шарів відсіву в будь-якій …

1
Коли я повинен використовувати армування навчання проти PID управління?
Розробляючи рішення таких проблем, як Lunar Lander на OpenAIGym , Reinforcement Learning є заманливим засобом надання агенту адекватного контролю дій, щоб успішно приземлитися. Але які випадки, коли алгоритми системи управління, такі як PID-контролери , виконували б адекватну роботу, як, якщо не краще, ніж навчання зміцненню? Такі питання, як цей, роблять …

1
Чому для DQN потрібні дві різні мережі?
Я проходив цю реалізацію DQN і бачу, що на лінії 124 і 125 ініціалізуються дві різні мережі Q. З мого розуміння, я думаю, що одна мережа прогнозує відповідні дії, а друга мережа прогнозує цільові значення Q для знаходження помилки Беллмана. Чому ми не можемо просто створити одну єдину мережу, яка …

2
Чому Q-навчання не збігається при використанні наближення функції?
Табличний алгоритм Q-навчання гарантовано знайде оптимальний QQQ функція, Q∗Q∗Q^*, за умови виконання наступних умов (умови Роббінса-Монро ) щодо рівня навчання ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty де αt(s,a)αt(s,a)\alpha_t(s, a) означає ступінь навчання, що використовується при оновленні QQQ значення, пов'язане зі станом sss і дії aaa на …

3
Чому ставка дисконтування в алгоритмі REINFORCE з’являється двічі?
Я читав книгу Підкріплення навчання: вступ Річарда С. Саттона та Ендрю Г. Барто (повний проект, 5 листопада 2017 р.). На сторінці 271 представлений псевдокод епізодичного методу "Градієнт політика Монте-Карло". Дивлячись на цей псевдо-код, я не можу зрозуміти, чому здається, що дисконтна ставка з’являється 2 рази, один раз у стані оновлення …

1
Як залишатися сучасним дослідником у ML / RL-спільноті?
Як студент, який хоче працювати над машинним навчанням, я хотів би знати, як можна розпочати навчання та як слідкувати за ним, щоб бути в курсі сучасних. Наприклад, я готовий працювати над проблемами RL та MAB, але на ці теми є величезна література. Більше того, ці теми вивчаються дослідниками різних спільнот, …

1
Як можна застосовувати градієнти політики у випадку безлічі безперервних дій?
Оптимізація політики довіреної регіональної політики (TRPO) та оптимізація максимальної політики (РРО) - два алгоритми передових градієнтів політики. При використанні однієї безперервної дії, як правило, ви використовуєте деякий розподіл ймовірностей (наприклад, Гаусса) для функції втрат. Приблизна версія: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, де є перевагою винагород, характеризується та що виходить з нейронної …

3
Чи завжди оптимальна політика стохастична, якщо навколишнє середовище також стохастичне?
Чи завжди оптимальна політика стохастична (тобто карта від станів до розподілу ймовірності за діями), якщо середовище також стохастичне? Інтуїтивно, якщо середовище є детермінованим (тобто якщо агент перебуває у стані та вживає дій , то наступний завжди є однаковим, незалежно від того, який крок часу), то оптимальна політика також повинна бути …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.