Я вивчав проблеми навчання в ієрархіальному підкріпленні, і хоча багато робіт пропонують алгоритми вивчення політики, вони, здається, припускають, що вони заздалегідь знають структуру графіків, що описують ієрархію дій у цій галузі. Наприклад, метод MAXQ для навчання ієрархіального підкріплення від Діттеріха описує графік дій та підзадач для простого домену таксі, але не спосіб виявлення цього графіка. Як би ви дізналися ієрархію цього графіка, а не лише політики?
Іншими словами, використовуючи приклад паперу, якби таксі їхало безцільно, мало попереднього пізнання світу та вживаючи лише примітивні дії "рухатись ліворуч" / "рухатись правою стороною" тощо. пікап-пасажир? Якщо я правильно розумію документ (а я, можливо, і не буду), він пропонує запропонувати, як оновити політику для цих дій високого рівня, але не як їх сформувати для початку.