Програмування value-iteration

У чому різниця між ітерацією вартості та ітерацією політики?

У чому полягає різниця між ітерацією політики та ціннісною ітерацією при підкріпленні . Наскільки я розумію, у ітерації значень ви використовуєте рівняння Беллмана для вирішення оптимальної політики, тоді як під час ітерації політики ви випадковим чином вибираєте політику π і знаходите винагороду за цю політику. Я сумніваюся, що якщо ви …

94 machine-learning reinforcement-learning markov-models value-iteration

Запитання з тегом «value-iteration»