3
Чому завжди існує принаймні одна політика, яка краща або рівна всім іншим політикам?
Навчання зміцненню: вступ. Друге видання, у стадії розробки , Річард С. Саттон та Ендрю Г. Барто (с) 2012, стор 67-68. Розв’язання навчального завдання з підкріпленням означає, приблизно, пошук політики, яка досягає великої винагороди за довгостроковий період. Для кінцевих MDP ми можемо точно визначити оптимальну політику наступним чином. Функції значення визначають …