Запитання з тегом «reinforcement-learning»

Набір динамічних стратегій, за допомогою яких алгоритм може вивчити структуру навколишнього середовища в Інтернеті, пристосовуючи заходи, пов'язані з різними винагородами, щоб максимально заробити отримані винагороди.

3
Чому завжди існує принаймні одна політика, яка краща або рівна всім іншим політикам?
Навчання зміцненню: вступ. Друге видання, у стадії розробки , Річард С. Саттон та Ендрю Г. Барто (с) 2012, стор 67-68. Розв’язання навчального завдання з підкріпленням означає, приблизно, пошук політики, яка досягає великої винагороди за довгостроковий період. Для кінцевих MDP ми можемо точно визначити оптимальну політику наступним чином. Функції значення визначають …

2
Питання щодо Q-навчання за допомогою нейронних мереж
Я реалізував Q-навчання, як описано в, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Для того, щоб прибл. Q (S, A) Я використовую нейронну мережеву структуру, як описано нижче, Активація сигмоїдної Входи, кількість входів + 1 для нейронів дії (масштабування всіх входів 0-1) Виходи, один вихід. Q-значення N кількість M прихованих шарів. Метод дослідження випадковий 0 <rand …

1
GAM vs LOESS проти сплайнів
Контекст : Я хочу , щоб намалювати лінію в діаграмі розсіювання , що не виникає параметрическими, тому я використовую geom_smooth()в ggplotв R. Він автоматично повертається, geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to …

1
Яка різниця між епізодом та епохою у глибокому навчанні Q?
Я намагаюся зрозуміти відомий документ "Гра в Атарі з вивченням глибокого підкріплення" ( pdf ). Мені незрозуміло щодо різниці між епохою та епізодом . В алгоритмі зовнішній цикл знаходиться над епізодами , тоді як на малюнку2 вісь x позначенаепохою. У контексті підкріплення навчання мені не зрозуміло, що означає епоха. Чи …

1
Чому навчання з глибокого підкріплення нестабільне?
У статті DeepMind за 2015 рік про глибоке підкріплення навчання йдеться про те, що "попередні спроби поєднати RL з нейронними мережами значною мірою зазнали невдачі через нестабільне навчання". Потім у статті перераховані деякі причини цього на основі співвідношень спостережень. Скажіть, будь ласка, хтось пояснить, що це означає? Це форма надмірного …

1
Оптимальний алгоритм для вирішення завдань російських бандитів?
Я читав про цілий ряд алгоритмів для вирішення проблем, пов’язаних з бандитськими озброєними на зразок greedy, softmax та UCB1, але у мене виникають певні проблеми з сортуванням того, який підхід найкраще знизити до жалю.ϵϵ\epsilon Чи відомий оптимальний алгоритм для вирішення проблеми російського бандита? Чи є вибір алгоритму, який, здається, найкраще …

2
Чому для відтворення досвіду необхідний алгоритм поза політики?
У статті, що представляє DQN " Гра в Атарі з глибоким зміцненням навчання ", вона згадувала: Зауважте, що при навчанні за допомогою перегляду досвіду необхідно вчитися поза політикою (оскільки наші поточні параметри відрізняються від тих, які використовуються для створення вибірки), що мотивує вибір Q-навчання. Я не зовсім зрозумів, що це …

2
Переведення проблеми машинного навчання в регресійну систему
Припустимо, у мене є панель пояснювальних змінних , для , , а також вектор змінних залежних від бінарних результатів . Тож спостерігається лише в кінцевий час а не в будь-який раніше час. Повністю загальний випадок полягає в тому, щоб мати кілька для для кожної одиниці в кожен момент часу , …


1
Як підходити ваги до Q-значень з наближенням лінійної функції
У навчанні підкріплення часто використовується лінійне наближення функції, коли є великі простори стану. (Коли шукати таблиці стають нездійсненними.) Форма значення з наближенням до лінійної функції задається числомQ -Q−Q- Q ( s , a ) = w1f1( з , а ) + ш2f2( s , a ) + ⋯ ,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = …

2
Коли методи Монте-Карло віддають перевагу тимчасовим різницям?
Останнім часом я багато займався дослідженнями в навчанні зміцнення. Я слідував за навчанням зміцнення Саттона і Барто : Вступ до більшості цього. Я знаю, що таке процеси прийняття рішень Маркова та як навчання динамічного програмування (DP), Монте-Карло та часової різниці (DP) можна їх вирішити. Проблема у мене в тому , …

1
Що стосується політики розгортання в роботі AlphaGo?
Папір тут . Політика розгортання ... - це лінійна політика softmax, заснована на швидких, поступово обчислених, локальних функціях на основі шаблону ... Я не розумію, що таке політика розгортання та як вона стосується мережі політики вибору кроку. Будь-яке простіше пояснення?

1
Q-навчання за допомогою нейронної мережі як наближення функції
Я намагаюся використовувати нейронну мережу для того, щоб наблизити значення Q у Q-навчанні, як у питаннях про Q-навчання за допомогою нейронних мереж . Як було запропоновано в першій відповіді, я використовую функцію лінійної активації для вихідного шару, в той час як я все ще використовую функцію активації сигмоїдів у прихованих …

1
Чи можна навчати модель P (Y | X) за допомогою стохастичного градієнтного спуску з неіідних зразків P (X) та iid зразків P (Y | X)?
Під час тренування параметризованої моделі (наприклад, для збільшення максимальної вірогідності) за допомогою стохастичного градієнтного спуску на деякому наборі даних зазвичай прийнято вважати, що навчальні зразки витягуються внаслідок розподілу навчальних даних. Отже, якщо мета - моделювати спільний розподіл , то кожний навчальний зразок ( x i , y i ) повинен …

2
Чому алгоритм ітерації політики переходить до оптимальної функції політики та значення?
Я читав конспекти лекцій Ендрю Нґ про навчання підкріплення, і я намагався зрозуміти, чому ітерація політики перейшла до функції оптимального значенняV∗V∗V^*та оптимальна політика .π∗π∗\pi^* Нагадаємо, ітерація політики: Ініціалізуйте π випадковим чиномПовторити {Л е т V : =Vπ \ для поточної політики розв’яжіть рівняння Беллмана та встановіть його на поточний VL …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.