Веб-сайт із штучним інтелектом визначає позаполітичне та політичне навчання наступним чином:
"Учасник, який перебуває поза політикою, дізнається значення оптимальної політики незалежно від дій агента. Q-навчання - це вчитель, який не відповідає політиці. Учень, який проводить політику, дізнається значення політики, яку проводить агент, включаючи етапи дослідження. . "
Я хотів би попросити ваших роз’яснень щодо цього, оскільки вони, схоже, не мають для мене ніякого значення. Обидва визначення здаються, що вони однакові. Те, що я насправді зрозумів, - це безмодельне та модельне навчання, і я не знаю, чи мають вони щось спільне з тими, про які йдеться.
Як можливо, що оптимальна політика засвоюється незалежно від дій агента? Чи не вивчена політика, коли агент виконує дії?