Запитання з тегом «policy-iteration»

2
Чому алгоритм ітерації політики переходить до оптимальної функції політики та значення?
Я читав конспекти лекцій Ендрю Нґ про навчання підкріплення, і я намагався зрозуміти, чому ітерація політики перейшла до функції оптимального значенняV∗V∗V^*та оптимальна політика .π∗π∗\pi^* Нагадаємо, ітерація політики: Ініціалізуйте π випадковим чиномПовторити {Л е т V : =Vπ \ для поточної політики розв’яжіть рівняння Беллмана та встановіть його на поточний VL …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.