Коли я повинен використовувати армування навчання проти PID управління?


12

Розробляючи рішення таких проблем, як Lunar Lander на OpenAIGym , Reinforcement Learning є заманливим засобом надання агенту адекватного контролю дій, щоб успішно приземлитися.

Але які випадки, коли алгоритми системи управління, такі як PID-контролери , виконували б адекватну роботу, як, якщо не краще, ніж навчання зміцненню?

Такі питання, як цей, роблять велику роботу у вирішенні теорії цього питання, але мало займаються практичною складовою.

Як інженер зі штучного інтелекту, які елементи проблемної області повинні підказувати мені, що PID-контролер недостатній для вирішення проблеми, а замість цього повинен використовуватися алгоритм навчання зміцнення (або навпаки)?


Основна ідея, яку я маю про PID, говорить про те, що її непросто розробити. У ньому багато інтегралів та диференціалів. Таким чином, це в основному та сама ідея, що і коли ви замінюєте статистику підходами МЛ. Системи управління, безумовно, бездоганні, але це занадто багато роботи.
DuttaA

2
насправді це не надто багато роботи, її досить стандартний в промисловості, використовуючи сучасні засоби дизайну системи, такі як MATLAB, ви можете налаштувати PID або будь-який інший контролер відносно легко, щоб задовольнити ваші потреби. Навчання зміцнення не застосовується на практиці, оскільки воно потребує великої кількості даних і немає ніяких теоретичних гарантій, як це існує для класичної теорії управління. До речі, контурне проектування не передбачає роботи безпосередньо з інтегралами / диференціалами, для лінійних систем вся робота проводиться в домені Лапласа, що передбачає прості алгебраїчні маніпуляції
Brale_

@Brale_, але це все-таки включає багато теоретичних знань. Доменний предмет просто спрощує диференціювання, але вам потрібно знати, як проектувати речі (полюси і нулі), щоб системи не стали нестабільними. Мені досить складно уявити собі, як ці речі насправді працюють.
DuttaA

2
Як хороше правило, яке допомогло мені в минулих проектах, якщо ви не можете пояснити пояснення оптимальної політики (PID, RL або іншим способом) в декількох реченнях, PID буде дійсно важким. Яка оптимальна політика для Pacman?
Яден Травник

Відповіді:


5

Я думаю, що коментарі в основному на вірному шляху.

PID-контролери корисні для пошуку оптимальних політик у безперервних динамічних системах, і часто ці домени також використовуються в якості орієнтирів для RL саме тому, що існує оптимальна політика, яка легко виводиться. Однак на практиці ви, очевидно, віддаєте перевагу PID-контролеру для будь-якого домену, в якому ви можете легко спроектувати його: поведінка контролера добре зрозуміла, тоді як рішення RL часто важко інтерпретувати.

Там, де RL світить, це завдання, де ми знаємо, як виглядає хороша поведінка (тобто ми знаємо функцію винагороди), і ми знаємо, як виглядають входи датчиків (тобто ми можемо повністю і точно описати даний стан чисельно), але у нас мало або поняття не маємо, що ми насправді хочемо, щоб агент робив ці нагороди.

Ось хороший приклад:

  • Якби я хотів змусити агента маневрувати літаком перед ворожим літаком з відомими схемами руху позаду, використовуючи найменшу кількість палива, я б вважав за краще використовувати контролер PID .

  • Якби я хотів змусити агента керувати літаком і збити ворожий літак з достатньою кількістю палива, щоб залишити його на посадку, але без офіційного опису того, як може напасти літак противника (можливо, людський експерт пілотує його в симуляціях проти нашого агента) , Я б більше віддав перевагу RL .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.