Запитання з тегом «q-learning»

4
Чому Q-Learning використовує жадібний епсілон під час тестування?
У статті DeepMind про Deep Q-Learning для відеоігор Atari ( тут ) вони використовують метод жадібного епсилону для дослідження під час тренувань. Це означає, що коли в тренінгу вибирається дія, вона вибирається як дія з найвищим значенням q, або випадкова дія. Вибір між цими двома є випадковим і ґрунтується на …


1
Яка різниця між епізодом та епохою у глибокому навчанні Q?
Я намагаюся зрозуміти відомий документ "Гра в Атарі з вивченням глибокого підкріплення" ( pdf ). Мені незрозуміло щодо різниці між епохою та епізодом . В алгоритмі зовнішній цикл знаходиться над епізодами , тоді як на малюнку2 вісь x позначенаепохою. У контексті підкріплення навчання мені не зрозуміло, що означає епоха. Чи …

1
Огляд алгоритмів навчання для посилення
Зараз я шукаю Огляд алгоритмів навчання для посилення та, можливо, їх класифікацію. Але поряд із Sarsa та Q-Learning + Deep Q-Learning я не можу реально знайти жодного популярного алгоритму. Вікіпедія дає мені огляд різних загальних методів зміцнення, але немає посилань на різні алгоритми, що реалізують ці методи. Але, можливо, я …

2
Підсилення навчання в нестаціонарному середовищі [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі лише редагуючи цю публікацію . Закрито 22 дні тому . Q1: Чи існують загальноприйняті або прийняті методи поводження з нестаціонарним середовищем у навчанні підкріплення …

4
Як інтерпретувати криву виживання моделі Кокса?
Як ви інтерпретуєте криву виживання з пропорційною моделлю небезпеки Кокса? У цьому прикладі іграшки, припустимо, ми маємо коксову пропорційну модель небезпеки для ageзмінної kidneyданих та генеруємо криву виживання. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Наприклад, на час 200200200, яке твердження вірно? або обидва помиляються? Заява 1: у …

1
Наскільки ефективно Q-навчання за допомогою нейронних мереж, коли є одна вихідна одиниця на дію?
Передумови: Я використовую наближення значення нейронної мережі у своєму навчальному завданні з посиленням. Підхід точно такий, як описаний у цьому питанні , однак сам питання інший. У цьому підході кількість результатів - це кількість дій, які ми можемо вжити. Простими словами, алгоритм наступний: виконайте дію A, досліджуйте нагороду, попросіть NN …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.