Я розглядаю можливість програмування рядка за роботом, використовуючи алгоритми навчання посилення. Питання, над яким я замислююсь, полягає в тому, як я можу отримати алгоритм для навчання навігації по будь-якому довільному шляху?
Слідуючи за книгою « Саттон і Барто» для навчання підкріплення, я вирішив проблему вправ, пов’язану з іподромом, де автомобільний агент навчився не їхати з траси і регулювати його швидкість. Однак ця проблема вправ змусила агента навчитися орієнтуватися на треку, на якому він навчався.
Чи варто в рамках навчання підкріплення отримати робота, щоб орієнтуватися на довільні шляхи? Є чи агент абсолютно мати карту гоночної траси або шляху? Які параметри я міг би використовувати для простору свого стану?