Як підходити ваги до Q-значень з наближенням лінійної функції


12

У навчанні підкріплення часто використовується лінійне наближення функції, коли є великі простори стану. (Коли шукати таблиці стають нездійсненними.)

Форма значення з наближенням до лінійної функції задається числомQ

Q(s,a)=w1f1(s,a)+w2f2(s,a)+,

де - ваги, а - особливості.f iwifi

Функції заздалегідь визначені користувачем. Моє запитання: як призначаються ваги?

Я прочитав / завантажив деякі слайди лекцій з навчання з наближенням до функції. Більшість з них мають слайди за лінійною регресією, що слідує за цим. Оскільки вони є лише слайдами, вони, як правило, неповні. Цікаво, який зв’язок / відношення між двома темами.Q

Відповіді:


11

Апроксимація функції - це в основному проблема регресії (у загальному розумінні, тобто на противагу класифікації, де клас дискретний), тобто намагається вивчити відображення функції від вхідних даних (у вашому випадку ) до реальних значень вихід . Оскільки у нас немає повної таблиці всіх вхідних / вихідних значень, а натомість вивчаємо та оцінюємоf(s,a)Q(s,a)Q(s,a) одночасно, параметри (тут: ваги ) не можуть бути обчислені безпосередньо з даних. Загальний підхід тут полягає у використанні градієнтного спуску .w

Ось загальний алгоритм вивчення з наближенням значення функціїQ(s,a)

  • Введіть параметр-вектор випадковим чином (наприклад, у [0,1])w=(w1,w2,....,wn)
  • Для кожного епізоду:

    1. s початковий стан епізоду
    2. aπ ϵ дія, що надається політикою (рекомендуємо:πϵ -greedy)
    3. Вживайте дій , дотримуйтесь нагороди та наступного стануars
    4. ww+α(r+γmaxaQ(s,a)Q(s,a))wQ(s,a)
    5. ss

    Повторюйте 2-5 доs не

де ...

  • α[0,1] - це рівень навчання
  • γ[0,1] - ставка дисконтування
  • maxaQ(s,a) - це дія в стані максимізаціяasQ(s,a)
  • wQ(s,a) - градієнт у . У вашому лінійному випадку градієнт - це просто векторQ(s,a)w(f1(s,a),...,fn(s,a))

Параметри / ваги-оновлення (4-й крок) можна прочитати таким чином:

  • (r+γmaxaQ(s,a))(Q(s,a)) - помилка між прогнозуванням і "фактичним" значенням , яка нагорода отримана зараз ПЛЮС очікуваною, дисконтованою нагородою після жадної політики після цьогоQ(s,a)Q(s,a)r γmaxaQ(s,a)
  • Таким чином, параметр / вектор ваги зміщується в самий крутий напрямок (заданий градієнтом ) на величину вимірюваної помилки, скориговану на .wQ(s,a)α

Основне джерело:

Розділ 8 Наближення вартості (загалом рекомендована) навчальна робота з підкріплення: вступ Саттона та Барто (Перше видання). Загальний алгоритм був модифікований, як це зазвичай робиться для обчислення замість . Я також упустив сліди відповідності щоб зосередитись на спуску градієнта, отже, використовуючи лише резервну копію в один крокQ(s,a)V(s)e

Більше посилань


2
Несправне посилання на Barto & Sutton! Тепер тут -> incompleteideas.net/book/the-book.html :) і як ebook incompleteideas.net/book/ebook, але я не знаю, де знайти файл mobi
grisaitis

1
Чи не градієнт Q (s, a) по відношенню до вектору стовпців wa, де кожен елемент є fi (s, a), а не підсумовує всі fi, як ви сказали? Мета полягає в тому, щоб кожна вага змінювалася відповідно до значення ознаки, на яку вона примножується.
Мігель Сараїва

@MiguelSaraiva Так, виправлено. Дуже дякую.
steffen
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.