Запитання з тегом «reinforcement-learning»

7
Як навчити штучну нейронну мережу грати в Diablo 2 за допомогою візуального введення?
Наразі я намагаюся отримати АНН, щоб грати у відеоігри, і я сподівався отримати допомогу чудового співтовариства тут. Я зупинився на Diablo 2. Гра, таким чином, відбувається в режимі реального часу і з ізометричної точки зору, при цьому гравець управляє одним аватаром, на якому орієнтована камера. Щоб зробити конкретні речі, завдання …

4
У чому різниця між ітерацією вартості та ітерацією політики?
У чому полягає різниця між ітерацією політики та ціннісною ітерацією при підкріпленні . Наскільки я розумію, у ітерації значень ви використовуєте рівняння Беллмана для вирішення оптимальної політики, тоді як під час ітерації політики ви випадковим чином вибираєте політику π і знаходите винагороду за цю політику. Я сумніваюся, що якщо ви …

6
У чому різниця між Q-learning та SARSA?
Хоча я знаю, що SARSA є політикою, тоді як Q-навчання не відповідає політиці, при перегляді їх формул важко (мені) побачити будь-яку різницю між цими двома алгоритмами. Згідно з книгою « Підкріплення навчання: вступ» (Саттона та Барто). В алгоритмі SARSA, враховуючи політику, відповідна функція значення значення дії Q (у стані s …

1
Розуміння перенесення градієнтної політики
Я намагаюся відтворити дуже простий приклад програми «Градієнт політики» з його ресурсного джерела блогу «Андрій Карпаті» . У цьому артикулі ви знайдете приклад із CartPole та Gradient Policy зі списком ваги та активації Softmax. Ось мій відтворений і дуже простий приклад градієнта політики CartPole, який ідеально працює . import gym …

1
TypeError: len недостатньо визначений для символічних тензорів. (активація_3 / Ідентифікація: 0) Будь ласка, зателефонуйте на `x.shape`, а не на` len (x) `для інформації про форму
Я намагаюся реалізувати модель DQL в одній грі openAI gym. Але це дає мені наступну помилку. TypeError: len недостатньо визначений для символічних тензорів. (activation_3 / Identity: 0) Будь ласка, зателефонуйте, x.shapeа не len(x) для інформації про форму. Створення атмосфери тренажерного залу: ENV_NAME = 'CartPole-v0' env = gym.make(ENV_NAME) np.random.seed(123) env.seed(123) nb_actions …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.