Розробляючи рішення таких проблем, як Lunar Lander на OpenAIGym , Reinforcement Learning є заманливим засобом надання агенту адекватного контролю дій, щоб успішно приземлитися.
Але які випадки, коли алгоритми системи управління, такі як PID-контролери , виконували б адекватну роботу, як, якщо не краще, ніж навчання зміцненню?
Такі питання, як цей, роблять велику роботу у вирішенні теорії цього питання, але мало займаються практичною складовою.
Як інженер зі штучного інтелекту, які елементи проблемної області повинні підказувати мені, що PID-контролер недостатній для вирішення проблеми, а замість цього повинен використовуватися алгоритм навчання зміцнення (або навпаки)?