Марковський Процес прийняття рішення на самому справі має відношення до переходу від одного стану до іншого , і в основному використовуються для планування і прийняття рішень .
Теорія
Просто повторюючи теорію швидко, MDP:
ПРА = ⟨ S, А , Т, R , γ⟩
де - стани, дії, - ймовірності переходу (тобто ймовірності перейти з одного стану в інший із заданою дією), - нагороди (з урахуванням певного стану та, можливо, дії), а - коефіцієнт знижки, який використовується для зменшення важливості майбутніх нагород.SАТПr ( s'| з,а)Rγ
Тож для того, щоб ним скористатися, потрібно заздалегідь задати:
- Штати : вони можуть стосуватися, наприклад, сіткових карт з робототехніки, або, наприклад, двері, відкриті та закриті двері .
- Дії : фіксований набір дій, наприклад, наприклад, що йде робот на північ, південь, схід тощо, або відкривання та закривання дверей.
- Ймовірності переходу : ймовірність переходу з одного стану в інший із заданою дією. Наприклад, яка ймовірність відкритих дверей, якщо дія відкрита . У ідеальному світі пізніше це може бути 1,0, але якщо це робот, він не міг би правильно поводитися з дверною ручкою. Іншим прикладом у випадку з рухомим роботом може бути дія на північ , яка в більшості випадків приводить його в клітинку сітки на північ від неї, але в деяких випадках могла пересунутись занадто багато і, наприклад, дійти до наступної комірки.
- Нагороди : вони використовуються для керівництва плануванням. У випадку прикладу сітки ми можемо захотіти перейти до певної комірки, і винагорода буде вищою, якщо ми наблизимось. У випадку з прикладом дверей відкриті двері можуть дати високу винагороду.
Після того, як визначено MDP, політику можна дізнатися, зробивши ітерацію вартості або ітерацію політики, яка обчислює очікувану винагороду для кожного з штатів. Потім політика дає кожній державі найкращі дії (з огляду на модель MDP), які можна зробити.
Підводячи підсумок, MDP корисний, коли ви хочете спланувати ефективну послідовність дій, в яких ваші дії можуть бути не завжди на 100% ефективними.
Ваші запитання
Чи можна його використовувати для прогнозування речей?
Я б назвав це плануванням, не прогнозуючи, як, наприклад, регресія .
Якщо так, то які речі?
Дивіться приклади .
Чи може він знайти шаблони серед нескінченної кількості даних?
MDP використовуються для навчання зміцнення , щоб знайти шаблони, які вам потрібні без нагляду . І ні, ви не можете обробити нескінченну кількість даних. Власне, складність пошуку політики зростає експоненціально з кількістю штатів.| S|
Що може зробити цей алгоритм для мене.
Дивіться приклади .
Приклади застосування MDP
- Білий, DJ (1993) згадує великий список застосувань:
- Збирання врожаю: скільки членів популяції потрібно залишити для розведення.
- Сільське господарство: скільки посадити на основі погоди та стану ґрунту.
- Водні ресурси: підтримуйте правильний рівень води на водоймах.
- Огляд, технічне обслуговування та ремонт: коли слід замінити / оглянути на основі віку, стану тощо.
- Закупівля та виробництво: скільки виробляти на основі попиту.
- Черги: скоротити час очікування.
- ...
- Фінанси: вирішення, скільки інвестувати в запас.
- Робототехніка:
А ще є ще кілька моделей. Ще більш цікавою моделлю є процес частково спостережуваного марківського рішення, в якому стани не видно повністю, а натомість використовуються спостереження, щоб отримати уявлення про поточний стан, але це виходить за рамки цього питання.
Додаткова інформація
Стохастичний процес є марківським (або має властивість Маркова), якщо умовний розподіл ймовірностей майбутніх станів залежить лише від поточного стану, а не від попередніх (тобто не від переліку попередніх станів).