Вивчення структури завдання ієрархічного посилення

Я вивчав проблеми навчання в ієрархіальному підкріпленні, і хоча багато робіт пропонують алгоритми вивчення політики, вони, здається, припускають, що вони заздалегідь знають структуру графіків, що описують ієрархію дій у цій галузі. Наприклад, метод MAXQ для навчання ієрархіального підкріплення від Діттеріха описує графік дій та підзадач для простого домену таксі, але не спосіб виявлення цього графіка. Як би ви дізналися ієрархію цього графіка, а не лише політики?

Іншими словами, використовуючи приклад паперу, якби таксі їхало безцільно, мало попереднього пізнання світу та вживаючи лише примітивні дії "рухатись ліворуч" / "рухатись правою стороною" тощо. пікап-пасажир? Якщо я правильно розумію документ (а я, можливо, і не буду), він пропонує запропонувати, як оновити політику для цих дій високого рівня, але не як їх сформувати для початку.

machine-learning

— Серін
джерело

Відповідно до цього документу

У сучасних сучасних умовах розробник системи RL зазвичай використовує попередні знання про завдання, щоб додати певний набір опцій до набору примітивних дій, доступних агенту.

Також дивіться розділ 6.2 Ієрархії навчальних завдань у цьому ж документі.

Перша ідея, яка мені спадає на думку, полягає в тому, що якщо ви не знаєте ієрархій завдань, ви повинні почати з неієрархіального навчання підкріплення та намагатися відкрити структуру згодом або під час навчання, тобто ви намагаєтесь узагальнити свою модель. Для мене це завдання схоже на техніку злиття моделі Баєса для HMM (наприклад, дивіться цю тезу )

— Олексій Калмиков
джерело