Що таке рецидивуюче навчання посилення


20

Нещодавно я натрапив на слово "Повчальне навчання зміцненню". Я розумію, що таке "Рекурентна нейронна мережа" і що таке "Навчання підсилення", але не зміг знайти багато інформації про те, що таке "Повсюдне навчання зміцненню".

Чи може хтось пояснити мені, що таке "Повсюдне навчання підсилення" і в чому різниця між "Поточним навчанням підкріплення" та звичайним "Підсиленням навчання", як алгоритм Q-Learning.

Відповіді:


15

Що таке "періодичне підкріплення навчання"?

Рекуррентне підкріплення навчання ( RRL ) вперше було запроваджено для навчання систем торгівлі нейронними мережами в 1996 році. "Повторний" означає, що попередній вихід подається в модель як частина вхідних даних. Незабаром це було розширено до торгівлі на валютному ринку.

РРЛА метод був знайдений , щоб бути успішними методами машинного навчання для побудови торгових систем фінансових.

Яка різниця між "періодичним навчанням підкріплення" та звичайним "навчанням підкріплення" (як алгоритм Q-навчання)?

Підхід RRL суттєво відрізняється від алгоритмів динамічного програмування та посилення, таких як TD-навчання та Q-навчання , які намагаються оцінити функцію значення для проблеми управління.

РРЛ структура дозволяє створити просте і елегантне уявлення проблеми, уникнути прокляття Беллмана розмірності і пропонує переконливі переваги в ефективності:

РРЛА виробляють речові дії (портфельні ваги) , природно , не вдаючись до методу дискретизації в Q-навчанні .

RRL має більш стабільну продуктивність порівняно з Q-навчанням, коли піддається впливу галасливих наборів даних. Алгоритм Q-навчання більш чутливий до вибору функції значення (можливо) завдяки рекурсивній властивості динамічної оптимізації, тоді як алгоритм RRL є більш гнучким у виборі цільової функції та економії обчислювального часу.

U()

Тут ви знайдете реалізацію алгоритму RRL Matlab.


Список літератури

Підсилення навчання для торгівлі

Навчання підсилення для торгових систем та портфелів

Торгівля валютними курсами шляхом повного навчання підкріплення

Торгівля акціями з періодичним навчальним підкріпленням (RRL)

Торгівля алгоритмом з використанням Q-навчання та Поточного навчання підсилення

ДОСЛІДЖЕННЯ АЛГОРИТМІВ ДЛЯ АВТОМАТИЗАЦІЙНОГО ФОРМУВАННЯ - ЗВ'ЯЗКУВАННЯ ГІБРИДНОЇ МОДЕЛИ


@AntonDanilov Я не впевнений, чи знаєш ти про це. Хлопець, який придумав цю ідею (ваш перший відгук, Дж. Муді), керував фондом, використовуючи цей альго - і його виступ був далеко не вражаючим.
horaceT

Тож, добре знати, але як це робить зміна відповіді
Антон Данилов

2

Відмінністю (глибокого) рецидивуючого RL є те, що функція, яка відображає спостереження агентів до його вихідної дії, є рекурентною нейронною мережею.

Рекурентна нейронна мережа - це тип нейронної мережі, який обробляє кожне спостереження послідовно, однаково для кожного кроку часу.

Оригінальний документ: Глибоке повторне навчання Q для частково спостерігаються MDP

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.