Наскільки я усвідомлюю, все ще дещо є відкрита проблема, щоб отримати дійсно чітке, формальне розуміння того, чому / коли ми отримуємо відсутність конвергенції - або, що ще гірше, іноді небезпека розбіжності. Зазвичай його відносять до "смертельної тріади" (див. 11.3 другого видання книги Саттона та Барто), поєднання:
- Наближення функції, І
- Запуск завантаження (використовуючи власні оцінки вартості при обчисленні наших навчальних цілей, як це зроблено Q-навчання), І
- Політичне навчання (Q-навчання справді позаполітичне).
Це лише дає нам (можливо, не вичерпний) опис випадків, коли ми маємо відсутність конвергенції та / або загроза розбіжності, але все ще не говорить про те, чому це відбувається в таких випадках.
Відповідь Джона вже забезпечує інтуїцію, що частина проблеми полягає лише в тому, що використання наближення функції може легко призвести до ситуацій, коли ваш апроксиматор функції недостатньо потужний, щоб представити справжнюQ∗ Функція, завжди можуть бути помилки наближення, яких неможливо позбутися без переключення на інший аппроксиматор функції.
Особисто я думаю, що ця інтуїція допомагає зрозуміти, чому алгоритм не може гарантувати конвергенцію до оптимального рішення, але я все одно інтуїтивно сподіваюся, що він може бути здатним "перейти" до якогось "стабільного" рішення, яке є найкращим можливим наближенням обмеження, властиві представленню обраної функції. Дійсно, це ми спостерігаємо на практиці, коли ми переходимо до навчання з питань політики (наприклад, Сарса), принаймні у випадку з лінійними наближувачами функцій.
Моя власна інтуїція щодо цього питання загалом полягала в тому, що важливим джерелом проблеми є узагальнення . У таблиці таблиць ми маємо повністю поодинокі записиQ ( s , a ) для усіх ( s , a )пари. Щоразу, коли ми оновлюємо нашу оцінку для одного запису, вона залишає всі інші записи незміненими (принаймні спочатку - можливі певні ефекти для інших записів у майбутніх оновленнях через завантаження в правилі оновлення). Оновлення правил для таких алгоритмівQ-навчання та Сарса іноді можуть оновлюватись у бік «неправильного» напрямку, якщо ми отримаємо «нещасливого», але, сподіваючись , вони, як правило, оновлюються до правильного «напрямку». Інтуїтивно це означає, що в таблиці, ми, сподіваючись, ми будемо повільно, поступово виправляти будь-які помилки в будь-яких записах окремо, не завдаючи шкоди іншим записам.
З наближенням функції, коли ми оновлюємо нашу Q ( s , a ) кошторис за один ( s , a )пара, це може також вплинути на всі наші інші оцінки для всіх інших пар дій-дій. Інтуїтивно це означає, що ми більше не маємо приємної ізоляції записів, як у таблиці, а "виправлення" помилок в одному записі може мати загрозу додавання нових помилок до інших записів. Однак, як і у відповіді Джона, вся ця інтуїція дійсно стосувалася б також політичних алгоритмів, тому вона все ще не пояснює, у чому особливеQ-навчання (та інші позаполітичні підходи).
Дуже цікавою нещодавньою доповіддю на цю тему є невміння Q-навчання та ітерація вартості . Вони вказують на проблему "помилкового упередження" в алгоритмах, що поєднують наближення функції з правилами оновлення, що включають aмакс оператора, такого як Q-навчання (це, мабуть, не властиво тільки макс оператора, але, мабуть, стосується позаполітики взагалі?).
Проблема полягає в наступному. Припустимо, ми запускаємо цеQ-оновлення навчання для пари стану-дії ( s , a ):
Q ( s , a ) ← Q ( s , a ) + α [макса'Q (с',а') - Q ( s , a ) ] .
Оцінка вартості макса'Q (с',а') Використовуваний тут заснований на припущенні, що ми виконуємо жадну політику щодо старих версій Qоцінки за - можливо дуже довгою - траєкторією. Як уже обговорювалося в деяких попередніх відповідях, наш аппроксиматор функцій має обмежену здатність представлення, і оновлення однієї пари стану дії може впливати на оцінки значень для інших пар дій-дій. Це означає, що після запуску нашого оновлення доQ ( s , a ), наш наближувач функцій може більше не в змозі одночасно виражати політику, що призводить до високих показників прибуткумакса'Q (с',а')оцінка була заснована на . Автори цієї роботи кажуть, що алгоритм є "брехливим". Він виконує оновлення, припускаючи, що внизу лінії він все ще може отримати великі прибутки, але він може бути фактично не досить потужним для отримання цих повернень з новою версією параметрів аппроксиматора функції.
Нарешті, ще одна (ще пізніша) робота, яка, як я підозрюю, має відношення до цього питання, - це діагностування пляшок у глибоких алгоритмах Q-навчання , але, на жаль, я ще не встиг прочитати її досить детально та адекватно узагальнити.