Відповіді:
Завантаження в RL може бути прочитано як "використання одного або декількох оцінених значень на етапі оновлення для того ж виду оціненого значення".
У більшості правил оновлення TD ви побачите щось на зразок цього оновлення SARSA (0):
Значення - це оцінка справжнього значення , а також називається цілью TD. Це метод завантаження, оскільки ми частково використовуємо значення Q для оновлення іншого значення Q. Існує невелика кількість реальних спостережуваних даних у вигляді , негайна винагорода за крок, а також у стані переходу .
Контраст з Монте-Карло, де еквівалентним правилом оновлення може бути:
Де була загальною знижкою за дисконтування за час , припускаючи в цьому оновлення, що вона розпочалася в штаті , вживши заходів , а потім дотримувалася поточної політики до кінця епізоду. Технічно де - крок часу для термінальної винагороди та стану. Зокрема, це цільове значення взагалі не використовує жодних існуючих оцінок (з інших значень Q), воно використовує лише набір спостережень (тобто винагород) з навколишнього середовища. Як такий, він гарантовано буде несмещенной оцінкою істинного значення , так як це технічно зразок зQ ( s , a ) Q ( s , a ).
Основним недоліком завантажувального завантаження є те, що він є упередженим щодо будь-яких початкових значень (або ). Вони, швидше за все, помиляються, і система оновлення може бути нестабільною в цілому через занадто багато самонавіювання та недостатньо реальних даних - це проблема із позаполітичним навчанням (наприклад, Q-навчання) за допомогою нейронних мереж.
Без завантажувального завантаження, використовуючи більш довгі траєкторії, натомість часто існує велика дисперсія , що, на практиці, означає, що вам потрібно більше зразків, перш ніж оцінки сходяться. Отже, незважаючи на проблеми з завантаженням, якщо це може бути спроможним працювати, він може навчитися значно швидше, і його часто віддають перевагу підходи під Монте-Карло.
Ви можете піти на компроміс між методами, заснованими на зразках Монте-Карло, та одноетапними методами TD, які завантажуються, використовуючи суміш результатів з різних траєкторій різниці. Це називається навчання TD ( ) , і існує безліч специфічних методів, таких як SARSA ( ) або Q ( ).
Взагалі завантаження в RL означає, що ви оновлюєте значення на основі деяких оцінок, а не на деяких точних значеннях. Напр
Поточні оновлення політики Монте-Карло:
TD (0) Оновлення оцінки політики:
У TD (0) повернення, починаючи зі стану , оцінюється (завантажується) тоді як у МС ми використовуємо точне повернення .