Як підходити ваги до Q-значень з наближенням лінійної функції

У навчанні підкріплення часто використовується лінійне наближення функції, коли є великі простори стану. (Коли шукати таблиці стають нездійсненними.)

Форма значення з наближенням до лінійної функції задається числом $Q-$

Q (s, a) = w_{1} f_{1} (s, a) + w_{2} f_{2} (s, a) + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

де - ваги, а - особливості. $w_i$ $f_i$

Функції заздалегідь визначені користувачем. Моє запитання: як призначаються ваги?

Я прочитав / завантажив деякі слайди лекцій з навчання з наближенням до функції. Більшість з них мають слайди за лінійною регресією, що слідує за цим. Оскільки вони є лише слайдами, вони, як правило, неповні. Цікаво, який зв’язок / відношення між двома темами. $Q-$

machine-learning feature-selection reinforcement-learning

— cgo
джерело

Апроксимація функції - це в основному проблема регресії (у загальному розумінні, тобто на противагу класифікації, де клас дискретний), тобто намагається вивчити відображення функції від вхідних даних (у вашому випадку ) до реальних значень вихід . Оскільки у нас немає повної таблиці всіх вхідних / вихідних значень, а натомість вивчаємо та оцінюємо $f(s,a)$ $Q(s,a)$ $Q(s,a)$ одночасно, параметри (тут: ваги ) не можуть бути обчислені безпосередньо з даних. Загальний підхід тут полягає у використанні градієнтного спуску . $w$

Ось загальний алгоритм вивчення з наближенням значення функції $Q(s,a)$

Введіть параметр-вектор випадковим чином (наприклад, у [0,1]) $w=(w_1,w_2,....,w_n)$
Для кожного епізоду:
1. $s\leftarrow$ початковий стан епізоду
2. $a\leftarrow$ дія, що надається політикою (рекомендуємо: $\pi$ $\epsilon$ -greedy)
3. Вживайте дій , дотримуйтесь нагороди та наступного стану $a$ $r$ $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
Повторюйте 2-5 до $s$ не

де ...

$\alpha\in[0,1]$ - це рівень навчання
$\gamma\in[0,1]$ - ставка дисконтування
$max_{a'}Q(s',a')$ - це дія в стані максимізація $a'$ $s'$ $Q(s',a)$
$\vec\nabla_wQ(s,a)$ - градієнт у . У вашому лінійному випадку градієнт - це просто вектор $Q(s,a)$ $w$ $(f_1(s,a),...,f_n(s,a))$

Параметри / ваги-оновлення (4-й крок) можна прочитати таким чином:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ - помилка між прогнозуванням і "фактичним" значенням , яка нагорода отримана зараз ПЛЮС очікуваною, дисконтованою нагородою після жадної політики після цього $Q(s,a)$ $Q(s,a)$ $r$ $\gamma * max_a'Q(s',a')$
Таким чином, параметр / вектор ваги зміщується в самий крутий напрямок (заданий градієнтом ) на величину вимірюваної помилки, скориговану на . $\vec\nabla_wQ(s,a)$ $\alpha$

Основне джерело:

Розділ 8 Наближення вартості (загалом рекомендована) навчальна робота з підкріплення: вступ Саттона та Барто (Перше видання). Загальний алгоритм був модифікований, як це зазвичай робиться для обчислення замість . Я також упустив сліди відповідності щоб зосередитись на спуску градієнта, отже, використовуючи лише резервну копію в один крок $Q(s,a)$ $V(s)$ $e$

Більше посилань

Гра в Atari з методом глибокого підкріплення за допомогою Mnih показує чудовий практичний приклад навчання $Q(s,a)$ із зворотно-розповсюдженими нейронними мережами (де Gradient Descent включений в алгоритм регресії).
Коротке опитування апроксимації функції параметричної величини за Гейстом та Пітквіном. Виглядає перспективно, але я ще цього не читав.

— steffen
джерело

Несправне посилання на Barto & Sutton! Тепер тут -> incompleteideas.net/book/the-book.html :) і як ebook incompleteideas.net/book/ebook, але я не знаю, де знайти файл mobi

— grisaitis

Чи не градієнт Q (s, a) по відношенню до вектору стовпців wa, де кожен елемент є fi (s, a), а не підсумовує всі fi, як ви сказали? Мета полягає в тому, щоб кожна вага змінювалася відповідно до значення ознаки, на яку вона примножується.

— Мігель Сараїва

@MiguelSaraiva Так, виправлено. Дуже дякую.

— steffen