Я читав конспекти лекцій Ендрю Нґ про навчання підкріплення, і я намагався зрозуміти, чому ітерація політики перейшла до функції оптимального значеннята оптимальна політика .
Нагадаємо, ітерація політики:
Чому жадібний алгоритм призводить до оптимальної політики та функції оптимального значення? (Я знаю, що жадібні алгоритми не завжди гарантують це або можуть застрягти в локальних оптимах, тому я просто хотів побачити доказ його оптимальності алгоритму).
Крім того, мені здається, що ітерація політики є чимось аналогічним кластеризації чи градієнту. До кластеризації, оскільки з поточним налаштуванням параметрів ми оптимізуємо. Схожий на спуск градієнта, оскільки він просто вибирає якесь значення, яке, здається, збільшує деяку функцію. Ці два методи не завжди сходяться до оптимальних максимумів, і я намагався зрозуміти, чим цей алгоритм відрізняється від попереднього, про який я згадував.
Це мої думки поки що:
Скажімо, що ми починаємо з певної політики , після першого кроку для цієї фіксованої політики ми маємо таке:
Де V ^ {(1)} функція значення для першої ітерації. Потім після другого кроку ми вибираємо нову політику для збільшення значення . Тепер, з новою політикою , якщо ми робимо другий крок алгоритму, виконується така нерівність:
Тому що ми вибираємо на другому кроці для збільшення функції значення на попередньому кроці (тобто для поліпшення . Поки зрозуміло, що вибір може збільшити лише V ^ {(1)}, бо то , як ми вибираємо . Тим НЕ менше, моя плутанина відбувається на етапі повторення , тому що , як тільки ми повторимо і повернутися до кроку 1, ми на самому ділі змінити становище речей повністю , тому що ми перерахувати для нової політики . Що дає:
але це НЕ:
Це, здається, є проблемою, оскільки для покращення було обрано , а не цей новий . В основному проблема полягає в тому, що гарантує поліпшення , роблячи замість з коли функцією значення є . Але на етапі повтору ми змінюємо на , але я не бачу, як це гарантує, що функція значення монотонно покращується при кожному повторенні, оскільки розраховувались для поліпшення функції значення, коли функції значення залишаються у, але крок 1 змінює на (що погано, оскільки я лише покращив попередню функцію значення, яку ми мали).