2
Чому алгоритм ітерації політики переходить до оптимальної функції політики та значення?
Я читав конспекти лекцій Ендрю Нґ про навчання підкріплення, і я намагався зрозуміти, чому ітерація політики перейшла до функції оптимального значенняV∗V∗V^*та оптимальна політика .π∗π∗\pi^* Нагадаємо, ітерація політики: Ініціалізуйте π випадковим чиномПовторити {Л е т V : =Vπ \ для поточної політики розв’яжіть рівняння Беллмана та встановіть його на поточний VL …