Запитання з тегом «value-iteration»

4
У чому різниця між ітерацією вартості та ітерацією політики?
У чому полягає різниця між ітерацією політики та ціннісною ітерацією при підкріпленні . Наскільки я розумію, у ітерації значень ви використовуєте рівняння Беллмана для вирішення оптимальної політики, тоді як під час ітерації політики ви випадковим чином вибираєте політику π і знаходите винагороду за цю політику. Я сумніваюся, що якщо ви …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.