Огляд алгоритмів навчання для посилення


9

Зараз я шукаю Огляд алгоритмів навчання для посилення та, можливо, їх класифікацію. Але поряд із Sarsa та Q-Learning + Deep Q-Learning я не можу реально знайти жодного популярного алгоритму.

Вікіпедія дає мені огляд різних загальних методів зміцнення, але немає посилань на різні алгоритми, що реалізують ці методи.

Але, можливо, я плутаю загальні підходи та алгоритми, і в основному немає реальної класифікації в цій галузі, як в інших сферах машинного навчання. Може хтось може дати мені коротке вступ або лише довідку, де я можу почати читати різні підходи, відмінності між ними та приклади алгоритмів, які реалізують цей підхід?


Відповіді:


14

Тут є хороший оглядовий документ .

Як короткий підсумок, крім методів Q-навчання, є також клас методів, заснованих на політиці, де замість вивчення функції Q ви безпосередньо вивчаєте найкращу політику для використання.π

Ці методи включають популярний алгоритм REINFORCE, який є алгоритмом градієнтів політики. TRPO та GAE - аналогічні алгоритми градієнтів політики.

Існує багато інших варіантів градієнтів політики, і це може поєднуватися з навчанням Q в рамках актора-критика. Алгоритм A3C - асинхронна перевага актора-критика - є одним з таких акторсько-критичних алгоритмів і дуже сильним базовим рівнем у навчанні підкріплення.

Ви також можете шукати найкращу політику , імітуючи результати з оптимального алгоритму управління, і це називається керованим пошуком політики.π

Окрім Q-навчання та градієнтів політики, які обидва застосовуються у вільних модельних налаштуваннях (жоден алгоритм не підтримує модель світу), існують також методи, засновані на моделях, які оцінюють стан світу. Ці моделі цінні тим, що можуть бути набагато ефективнішими для вибірки.

Алгоритми на основі моделей не є виключними з градієнтами політики або Q-навчання. Загальний підхід полягає у виконанні оцінювання стану / вивченні моделі динаміки, а потім підготовці політики над оцінкою стану.

Що стосується класифікації, то одна розбивка була б

  • Q або V функціонування навчання
  • Методи, засновані на політиці
  • На основі моделі

Методи, засновані на політиці, можна далі підрозділити

  • Градієнти політики
  • Акторський критик
  • Пошук політики
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.