TL; DR.
Той факт, що ставка дисконтування має бути меншою за 1, є математичним трюком, щоб зробити нескінченну суму скінченною. Це допомагає довести збіжність певних алгоритмів.
На практиці коефіцієнт знижки може бути використаний для моделювання того факту, що особа, яка приймає рішення, не впевнена, якщо в наступний момент мит світу (наприклад, середовище / гра / процес ) закінчиться.
Наприклад:
Якщо особою, яка приймає рішення, є робот, коефіцієнтом знижки може бути ймовірність того, що робота буде вимкнено в наступний момент (світ закінчується в попередній термінології). Саме тому робот короткозорий і не оптимізує суму винагороди, а нагороду зі
знижкою .
Коефіцієнт знижки менше 1 (Детально)
Для того щоб відповісти точніше, чому ставка дисконтування має бути меншою, ніж одна, я спершу введу Марківські рішення (MDP).
Технології навчального підкріплення можуть бути використані для вирішення МДП. ПДР забезпечує математичну основу для моделювання ситуацій прийняття рішень, коли результати частково випадкові та частково підконтрольні особі, яка приймає рішення. MDP визначається через простір стану S , простір дії А , функцію ймовірностей переходу між станами (зумовлену дією, прийнятою особою, що приймає рішення), і функцію винагороди.
У своїй базовій обстановці, який приймає рішення, вживає і діє, і отримує винагороду від навколишнього середовища, а навколишнє середовище змінює свій стан. Тоді, хто приймає рішення, відчуває стан довкілля, вживає заходів, отримує винагороду тощо. Переходи штатів є імовірнісними і залежать виключно від фактичного стану та дій, які вживає особа, яка приймає рішення. Винагорода, яку отримує особа, що приймає рішення, залежить від вжитих заходів та від початкового та нового стану навколишнього середовища.
Нагорода Rаi( сj, ск) отримується при вживанні дій аi в стані сj а середовище / система змінюється на стан ск після того, як ухвалюючий рішення вживає дій аi . Виробник рішення дотримується політики π π( ⋅ ) : S→ А , яка для кожного стану сj∈ S здійснює дію аi∈ A. Так що політика - це те, що вказує особі, яка приймає рішення, які дії потрібно вжити в кожній державі. Політика π може бути рандомізованою, але наразі це не має значення.
Мета - знайти політику π таку, що
максπ: S( n ) → ailimТ→ ∞Е{ ∑n = 1ТβнRхi( S( n ) , S( n + 1 ) ) } ( 1 ) ,
ββ< 1
Зауважимо, що проблема оптимізації, зазначена вище, має нескінченний часовий горизонт ( ), а мета - максимально збільшити суму винагороди (винагорода множиться на ). Зазвичай це називається проблемою MDP з нескінченними критеріями винагороди, дисконтованими за горизонт .Т→ ∞гi s c o u n t e dRβн
Проблема називається дисконтованою, оскільки . Якби не проблема зі знижкою сума не збігалася б. Усі політики, які отримують в середньому позитивну винагороду в кожен момент, підсумовують нескінченність. Це були б нескінченними критеріями винагороди суми горизонту , і не є хорошими критеріями оптимізації.β< 1β= 1
Ось іграшковий приклад, щоб показати вам, що я маю на увазі:
Припустимо, що є лише дві можливі дії і що функція винагороди дорівнює якщо , і якщо (винагорода не залежить від стану).a = 0 , 1R1a = 10a = 0
Зрозуміло, що політика, яка отримує більше винагороди, полягає в тому, щоб завжди діяти і ніколи не діяти . Я буду називати цю політику . Я порівняю з іншою політикою яка вживає дії з малою ймовірністю , а дія іншому випадку.a = 1= 0 π * π * π ' = 1 α < < 1 = 0a = 0π∗π∗π'a = 1α < < 1a = 0
У нескінченному горизонті рівняння дисконтованих критеріїв винагороди (1) стає (сума геометричного ряду) для політики а для рівняння рівняння (1) стає . Оскільки , ми говоримо, що є кращою політикою, ніж . Насправді - оптимальна політика.11 - βπ∗π'α1 - β11 - β> α1 - βπ∗π'π∗
У нескінченному горизонті критерії винагороди ( ) рівняння (1) не збігається для жодної з політик (підсумовує до нескінченності). Отже, тоді як політика отримує вищі нагороди, ніж обидві політики рівні за цими критеріями. Це одна з причин, чому критерії винагороди за нескінченну суму горизонту не є корисними.β= 1ππ'
Як я вже згадував, робить фокус зближення суми в рівнянні (1).β< 1
Інші критерії оптимальності
Є й інші критерії оптимальності, які не нав'язують :β< 1
У випадку критеріїв кінцевих горизонтів ціль полягає в тому, щоб максимально знизити винагороду до тих пір, поки горизонт часуТ
максπ: S( n ) → aiЕ{ ∑n = 1ТβнRхi( S( n ) , S( n + 1 ) ) } ,
для і кінцевих.β≤ 1Т
У критеріях середнього рівня винагороди для нескінченного горизонту мета -
максπ: S( n ) → ailimТ→ ∞Е{ ∑n = 1Т1ТRхi( S( n ) , S( n + 1 ) ) } ,
Кінцева примітка
Залежно від критеріїв оптимальності, можна використовувати інший алгоритм для пошуку оптимальної політики. Для прикладів оптимальна політика проблем кінцевого горизонту залежатиме як від стану, так і від фактичного моменту часу. Більшість алгоритмів зміцнення навчання (наприклад, SARSA або Q-навчання) сходяться до оптимальної політики лише за критеріями нескінченного горизонту безмежної винагороди (те саме відбувається з алгоритмами програмування динамічного програмування). Для середніх критеріїв винагороди не існує алгоритму, який би показав, що він збігається до оптимальної політики, однак можна використовувати R-навчання, які мають хороші показники, хоча і не хороші теоретичні конвергенції.