Тут є хороший оглядовий документ .
Як короткий підсумок, крім методів Q-навчання, є також клас методів, заснованих на політиці, де замість вивчення функції Q ви безпосередньо вивчаєте найкращу політику для використання.π
Ці методи включають популярний алгоритм REINFORCE, який є алгоритмом градієнтів політики. TRPO та GAE - аналогічні алгоритми градієнтів політики.
Існує багато інших варіантів градієнтів політики, і це може поєднуватися з навчанням Q в рамках актора-критика. Алгоритм A3C - асинхронна перевага актора-критика - є одним з таких акторсько-критичних алгоритмів і дуже сильним базовим рівнем у навчанні підкріплення.
Ви також можете шукати найкращу політику , імітуючи результати з оптимального алгоритму управління, і це називається керованим пошуком політики.π
Окрім Q-навчання та градієнтів політики, які обидва застосовуються у вільних модельних налаштуваннях (жоден алгоритм не підтримує модель світу), існують також методи, засновані на моделях, які оцінюють стан світу. Ці моделі цінні тим, що можуть бути набагато ефективнішими для вибірки.
Алгоритми на основі моделей не є виключними з градієнтами політики або Q-навчання. Загальний підхід полягає у виконанні оцінювання стану / вивченні моделі динаміки, а потім підготовці політики над оцінкою стану.
Що стосується класифікації, то одна розбивка була б
- Q або V функціонування навчання
- Методи, засновані на політиці
- На основі моделі
Методи, засновані на політиці, можна далі підрозділити
- Градієнти політики
- Акторський критик
- Пошук політики