Статистика та великі дані q-learning

4

Чому Q-Learning використовує жадібний епсілон під час тестування?

У статті DeepMind про Deep Q-Learning для відеоігор Atari ( тут ) вони використовують метод жадібного епсилону для дослідження під час тренувань. Це означає, що коли в тренінгу вибирається дія, вона вибирається як дія з найвищим значенням q, або випадкова дія. Вибір між цими двома є випадковим і ґрунтується на …

18 machine-learning reinforcement-learning q-learning deep-rl

2

Чому в Q-навчанні було обрано букву Q?

Чому букву Q обрали від імені Q-навчання? Більшість букв вибираються як абревіатура, наприклад, що відповідає політиці, і v означає значення. Але я не думаю, що Q - це абревіатура жодного слова.ππ\pivvv

17 terminology reinforcement-learning history q-learning

1

Яка різниця між епізодом та епохою у глибокому навчанні Q?

Я намагаюся зрозуміти відомий документ "Гра в Атарі з вивченням глибокого підкріплення" ( pdf ). Мені незрозуміло щодо різниці між епохою та епізодом . В алгоритмі зовнішній цикл знаходиться над епізодами , тоді як на малюнку2 вісь x позначенаепохою. У контексті підкріплення навчання мені не зрозуміло, що означає епоха. Чи …

14 neural-networks terminology reinforcement-learning q-learning

1

Огляд алгоритмів навчання для посилення

Зараз я шукаю Огляд алгоритмів навчання для посилення та, можливо, їх класифікацію. Але поряд із Sarsa та Q-Learning + Deep Q-Learning я не можу реально знайти жодного популярного алгоритму. Вікіпедія дає мені огляд різних загальних методів зміцнення, але немає посилань на різні алгоритми, що реалізують ці методи. Але, можливо, я …

9 reinforcement-learning q-learning

2

Підсилення навчання в нестаціонарному середовищі [закрито]

Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі лише редагуючи цю публікацію . Закрито 22 дні тому . Q1: Чи існують загальноприйняті або прийняті методи поводження з нестаціонарним середовищем у навчанні підкріплення …

9 markov-process reinforcement-learning stationarity q-learning

4

Як інтерпретувати криву виживання моделі Кокса?

Як ви інтерпретуєте криву виживання з пропорційною моделлю небезпеки Кокса? У цьому прикладі іграшки, припустимо, ми маємо коксову пропорційну модель небезпеки для ageзмінної kidneyданих та генеруємо криву виживання. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Наприклад, на час 200200200, яке твердження вірно? або обидва помиляються? Заява 1: у …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Наскільки ефективно Q-навчання за допомогою нейронних мереж, коли є одна вихідна одиниця на дію?

Передумови: Я використовую наближення значення нейронної мережі у своєму навчальному завданні з посиленням. Підхід точно такий, як описаний у цьому питанні , однак сам питання інший. У цьому підході кількість результатів - це кількість дій, які ми можемо вжити. Простими словами, алгоритм наступний: виконайте дію A, досліджуйте нагороду, попросіть NN …

9 machine-learning neural-networks reinforcement-learning q-learning

Запитання з тегом «q-learning»