Чи можна застосовувати навчання посилення для прогнозування часових рядів?


Відповіді:


10

Так, але в цілому це не гарний інструмент для виконання завдання, якщо тільки немає значного зворотного зв’язку між прогнозами та поточною поведінкою системи.

Для побудови проблеми посилення навчання (RL) там, де варто використовувати алгоритм передбачення або управління RL, тоді вам потрібно визначити деякі компоненти:

  • Середа , яка знаходиться в одному з багатьох станів , які можуть бути виміряні / спостережуваних в послідовності.

  • Агент , який може спостерігати поточні стану і взяти дії в тій же послідовності.

  • Еволюція стану в послідовності повинна залежати від деякої комбінації поточного стану та вжитих дій , а також може бути стохастичною.

  • Повинно бути сигналом про винагороду, який агент РЛ може спостерігати або вимірювати. Значення винагороди повинно залежати від тих же факторів, що й еволюція держави, але може залежати від них по-іншому.

Загальний випадок прогнозування часових рядів може бути пристосований до цього, трактуючи прогнозування як дію, коли еволюція стану залежить лише від поточного стану (плюс випадковість) та винагороди, заснованої на стані та дії. Це дозволить застосувати RL, але причинно-наслідковий зв’язок протікає лише в один бік - із середовища в вашу прогнозну модель. Таким чином, найкраще, що можна зробити, наприклад, для нагород, - це скористатись деякими показниками щодо правильності прогнозів. Наслідки для хороших чи поганих прогнозів не впливають на початкове середовище. По суті, ви завершите загортання деякої прогнозної моделі для послідовності (наприклад, нейронної мережі) у шар RL, який легко можна буде замінити базовим набором даних для керування навчальною проблемою.

Один із способів, яким ви могли б значимо розширити серію проблем прогнозування на проблеми RL, - це розширити сферу навколишнього середовища, включаючи рішення, прийняті на основі прогнозів, та стан систем, на які впливають ці рішення. Наприклад, якщо ви прогнозуєте ціни на акції, тоді додайте свій портфель та кошти в штаті. Так само дії перестають бути прогнозами, стаючи командами купівлі та продажу. Це не поліпшить компонент прогнозування цін (і вам, ймовірно, буде краще розглянути цю проблему як окрему проблему, використовуючи більш відповідні інструменти - наприклад, LSTM), але вона поставить проблему загалом як проблему RL.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.