Що таке рецидивуюче навчання посилення

20

Нещодавно я натрапив на слово "Повчальне навчання зміцненню". Я розумію, що таке "Рекурентна нейронна мережа" і що таке "Навчання підсилення", але не зміг знайти багато інформації про те, що таке "Повсюдне навчання зміцненню".

Чи може хтось пояснити мені, що таке "Повсюдне навчання підсилення" і в чому різниця між "Поточним навчанням підкріплення" та звичайним "Підсиленням навчання", як алгоритм Q-Learning.

machine-learning reinforcement-learning

— Негативний нуль
джерело

15

Що таке "періодичне підкріплення навчання"?

Рекуррентне підкріплення навчання ( RRL ) вперше було запроваджено для навчання систем торгівлі нейронними мережами в 1996 році. "Повторний" означає, що попередній вихід подається в модель як частина вхідних даних. Незабаром це було розширено до торгівлі на валютному ринку.

РРЛА метод був знайдений , щоб бути успішними методами машинного навчання для побудови торгових систем фінансових.

Яка різниця між "періодичним навчанням підкріплення" та звичайним "навчанням підкріплення" (як алгоритм Q-навчання)?

Підхід RRL суттєво відрізняється від алгоритмів динамічного програмування та посилення, таких як TD-навчання та Q-навчання , які намагаються оцінити функцію значення для проблеми управління.

РРЛ структура дозволяє створити просте і елегантне уявлення проблеми, уникнути прокляття Беллмана розмірності і пропонує переконливі переваги в ефективності:

РРЛА виробляють речові дії (портфельні ваги) , природно , не вдаючись до методу дискретизації в Q-навчанні .

RRL має більш стабільну продуктивність порівняно з Q-навчанням, коли піддається впливу галасливих наборів даних. Алгоритм Q-навчання більш чутливий до вибору функції значення (можливо) завдяки рекурсивній властивості динамічної оптимізації, тоді як алгоритм RRL є більш гнучким у виборі цільової функції та економії обчислювального часу.

$U( )$

Тут ви знайдете реалізацію алгоритму RRL Matlab.

Список літератури

Підсилення навчання для торгівлі

Навчання підсилення для торгових систем та портфелів

Торгівля валютними курсами шляхом повного навчання підкріплення

Торгівля акціями з періодичним навчальним підкріпленням (RRL)

Торгівля алгоритмом з використанням Q-навчання та Поточного навчання підсилення

ДОСЛІДЖЕННЯ АЛГОРИТМІВ ДЛЯ АВТОМАТИЗАЦІЙНОГО ФОРМУВАННЯ - ЗВ'ЯЗКУВАННЯ ГІБРИДНОЇ МОДЕЛИ

— Антон Данилов
джерело

@AntonDanilov Я не впевнений, чи знаєш ти про це. Хлопець, який придумав цю ідею (ваш перший відгук, Дж. Муді), керував фондом, використовуючи цей альго - і його виступ був далеко не вражаючим.

— horaceT

Тож, добре знати, але як це робить зміна відповіді

— Антон Данилов

2

Відмінністю (глибокого) рецидивуючого RL є те, що функція, яка відображає спостереження агентів до його вихідної дії, є рекурентною нейронною мережею.

Рекурентна нейронна мережа - це тип нейронної мережі, який обробляє кожне спостереження послідовно, однаково для кожного кроку часу.

Оригінальний документ: Глибоке повторне навчання Q для частково спостерігаються MDP

— LearnOPhile
джерело