4
Як поводитися з недійсними рухами в навчанні підкріплення?
Я хочу створити AI, який може грати з п’яти в ряд / гомоку. Як я вже згадував у назві, я хочу використовувати для цього підкріплення. Я використовую метод градієнта політики , а саме REINFORCE з базовою лінією. Для наближення значення та політики я використовую нейронну мережу . Він має згорнуті …