Статистика та великі дані policy-iteration

Чому алгоритм ітерації політики переходить до оптимальної функції політики та значення?

Я читав конспекти лекцій Ендрю Нґ про навчання підкріплення, і я намагався зрозуміти, чому ітерація політики перейшла до функції оптимального значенняV∗V∗V^*та оптимальна політика .π∗π∗\pi^* Нагадаємо, ітерація політики: Ініціалізуйте π випадковим чиномПовторити {Л е т V : =Vπ \ для поточної політики розв’яжіть рівняння Беллмана та встановіть його на поточний VL …

10 reinforcement-learning policy-iteration

Запитання з тегом «policy-iteration»