3
Чи завжди оптимальна політика стохастична, якщо навколишнє середовище також стохастичне?
Чи завжди оптимальна політика стохастична (тобто карта від станів до розподілу ймовірності за діями), якщо середовище також стохастичне? Інтуїтивно, якщо середовище є детермінованим (тобто якщо агент перебуває у стані та вживає дій , то наступний завжди є однаковим, незалежно від того, який крок часу), то оптимальна політика також повинна бути …