Статистика та великі дані reinforcement-learning

3

Чому завжди існує принаймні одна політика, яка краща або рівна всім іншим політикам?

Навчання зміцненню: вступ. Друге видання, у стадії розробки , Річард С. Саттон та Ендрю Г. Барто (с) 2012, стор 67-68. Розв’язання навчального завдання з підкріпленням означає, приблизно, пошук політики, яка досягає великої винагороди за довгостроковий період. Для кінцевих MDP ми можемо точно визначити оптимальну політику наступним чином. Функції значення визначають …

15 markov-process reinforcement-learning

2

Питання щодо Q-навчання за допомогою нейронних мереж

Я реалізував Q-навчання, як описано в, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Для того, щоб прибл. Q (S, A) Я використовую нейронну мережеву структуру, як описано нижче, Активація сигмоїдної Входи, кількість входів + 1 для нейронів дії (масштабування всіх входів 0-1) Виходи, один вихід. Q-значення N кількість M прихованих шарів. Метод дослідження випадковий 0 <rand …

14 machine-learning neural-networks reinforcement-learning

1

GAM vs LOESS проти сплайнів

Контекст : Я хочу , щоб намалювати лінію в діаграмі розсіювання , що не виникає параметрическими, тому я використовую geom_smooth()в ggplotв R. Він автоматично повертається, geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

1

Яка різниця між епізодом та епохою у глибокому навчанні Q?

Я намагаюся зрозуміти відомий документ "Гра в Атарі з вивченням глибокого підкріплення" ( pdf ). Мені незрозуміло щодо різниці між епохою та епізодом . В алгоритмі зовнішній цикл знаходиться над епізодами , тоді як на малюнку2 вісь x позначенаепохою. У контексті підкріплення навчання мені не зрозуміло, що означає епоха. Чи …

14 neural-networks terminology reinforcement-learning q-learning

1

Чому навчання з глибокого підкріплення нестабільне?

У статті DeepMind за 2015 рік про глибоке підкріплення навчання йдеться про те, що "попередні спроби поєднати RL з нейронними мережами значною мірою зазнали невдачі через нестабільне навчання". Потім у статті перераховані деякі причини цього на основі співвідношень спостережень. Скажіть, будь ласка, хтось пояснить, що це означає? Це форма надмірного …

13 machine-learning neural-networks deep-learning reinforcement-learning

1

Оптимальний алгоритм для вирішення завдань російських бандитів?

Я читав про цілий ряд алгоритмів для вирішення проблем, пов’язаних з бандитськими озброєними на зразок greedy, softmax та UCB1, але у мене виникають певні проблеми з сортуванням того, який підхід найкраще знизити до жалю.ϵϵ\epsilon Чи відомий оптимальний алгоритм для вирішення проблеми російського бандита? Чи є вибір алгоритму, який, здається, найкраще …

13 machine-learning reinforcement-learning multiarmed-bandit

2

Чому для відтворення досвіду необхідний алгоритм поза політики?

У статті, що представляє DQN " Гра в Атарі з глибоким зміцненням навчання ", вона згадувала: Зауважте, що при навчанні за допомогою перегляду досвіду необхідно вчитися поза політикою (оскільки наші поточні параметри відрізняються від тих, які використовуються для створення вибірки), що мотивує вибір Q-навчання. Я не зовсім зрозумів, що це …

12 reinforcement-learning

2

Переведення проблеми машинного навчання в регресійну систему

Припустимо, у мене є панель пояснювальних змінних , для , , а також вектор змінних залежних від бінарних результатів . Тож спостерігається лише в кінцевий час а не в будь-який раніше час. Повністю загальний випадок полягає в тому, щоб мати кілька для для кожної одиниці в кожен момент часу , …

12 regression machine-learning reinforcement-learning

3

Яке відношення між теорією ігор та навчанням підкріплення?

Мене цікавить (Глибоке) Підсилення навчання (RL) . Перш ніж зануритися в цю сферу, я повинен пройти курс теорії ігор (GT) ? Як пов'язані GT та RL ?

12 deep-learning reinforcement-learning game-theory

1

Як підходити ваги до Q-значень з наближенням лінійної функції

У навчанні підкріплення часто використовується лінійне наближення функції, коли є великі простори стану. (Коли шукати таблиці стають нездійсненними.) Форма значення з наближенням до лінійної функції задається числомQ -Q−Q- Q ( s , a ) = w1f1( з , а ) + ш2f2( s , a ) + ⋯ ,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = …

12 machine-learning feature-selection reinforcement-learning

2

Коли методи Монте-Карло віддають перевагу тимчасовим різницям?

Останнім часом я багато займався дослідженнями в навчанні зміцнення. Я слідував за навчанням зміцнення Саттона і Барто : Вступ до більшості цього. Я знаю, що таке процеси прийняття рішень Маркова та як навчання динамічного програмування (DP), Монте-Карло та часової різниці (DP) можна їх вирішити. Проблема у мене в тому , …

12 monte-carlo reinforcement-learning temporal-difference

1

Що стосується політики розгортання в роботі AlphaGo?

Папір тут . Політика розгортання ... - це лінійна політика softmax, заснована на швидких, поступово обчислених, локальних функціях на основі шаблону ... Я не розумію, що таке політика розгортання та як вона стосується мережі політики вибору кроку. Будь-яке простіше пояснення?

11 machine-learning monte-carlo reinforcement-learning games

1

Q-навчання за допомогою нейронної мережі як наближення функції

Я намагаюся використовувати нейронну мережу для того, щоб наблизити значення Q у Q-навчанні, як у питаннях про Q-навчання за допомогою нейронних мереж . Як було запропоновано в першій відповіді, я використовую функцію лінійної активації для вихідного шару, в той час як я все ще використовую функцію активації сигмоїдів у прихованих …

11 neural-networks reinforcement-learning

1

Чи можна навчати модель P (Y | X) за допомогою стохастичного градієнтного спуску з неіідних зразків P (X) та iid зразків P (Y | X)?

Під час тренування параметризованої моделі (наприклад, для збільшення максимальної вірогідності) за допомогою стохастичного градієнтного спуску на деякому наборі даних зазвичай прийнято вважати, що навчальні зразки витягуються внаслідок розподілу навчальних даних. Отже, якщо мета - моделювати спільний розподіл , то кожний навчальний зразок ( x i , y i ) повинен …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

Чому алгоритм ітерації політики переходить до оптимальної функції політики та значення?

Я читав конспекти лекцій Ендрю Нґ про навчання підкріплення, і я намагався зрозуміти, чому ітерація політики перейшла до функції оптимального значенняV∗V∗V^*та оптимальна політика .π∗π∗\pi^* Нагадаємо, ітерація політики: Ініціалізуйте π випадковим чиномПовторити {Л е т V : =Vπ \ для поточної політики розв’яжіть рівняння Беллмана та встановіть його на поточний VL …

10 reinforcement-learning policy-iteration

Запитання з тегом «reinforcement-learning»