Приклади реальних процесів процесів рішення Маркова


20

Я переглядав багато навчальних відео, і вони виглядають однаково. Цей, наприклад: https://www.youtube.com/watch?v=ip4iSMRW5X4

Вони пояснюють стан, дії та ймовірності, які є нормальними. Людина пояснює це нормально, але я просто не можу здатися, що я розуміюсь, чим би це було використано в реальному житті. Я ще не зустрічав жодного списку. Найпоширеніший, який я бачу, - це шахи.

Чи можна його використовувати для прогнозування речей? Якщо так, то які речі? Чи може він знайти зразки, які містять нескінченну кількість даних? Що може зробити цей алгоритм для мене.

Бонус: Це також відчуває, що MDP - це все про те, щоб перейти з одного стану в інший, це правда?

Відповіді:


28

Марковський Процес прийняття рішення на самому справі має відношення до переходу від одного стану до іншого , і в основному використовуються для планування і прийняття рішень .

Теорія

Просто повторюючи теорію швидко, MDP:

MDP=S,А,Т,R,γ

де - стани, дії, - ймовірності переходу (тобто ймовірності перейти з одного стану в інший із заданою дією), - нагороди (з урахуванням певного стану та, можливо, дії), а - коефіцієнт знижки, який використовується для зменшення важливості майбутніх нагород.SАТПr(с'|с,а)Rγ

Тож для того, щоб ним скористатися, потрібно заздалегідь задати:

  1. Штати : вони можуть стосуватися, наприклад, сіткових карт з робототехніки, або, наприклад, двері, відкриті та закриті двері .
  2. Дії : фіксований набір дій, наприклад, наприклад, що йде робот на північ, південь, схід тощо, або відкривання та закривання дверей.
  3. Ймовірності переходу : ймовірність переходу з одного стану в інший із заданою дією. Наприклад, яка ймовірність відкритих дверей, якщо дія відкрита . У ідеальному світі пізніше це може бути 1,0, але якщо це робот, він не міг би правильно поводитися з дверною ручкою. Іншим прикладом у випадку з рухомим роботом може бути дія на північ , яка в більшості випадків приводить його в клітинку сітки на північ від неї, але в деяких випадках могла пересунутись занадто багато і, наприклад, дійти до наступної комірки.
  4. Нагороди : вони використовуються для керівництва плануванням. У випадку прикладу сітки ми можемо захотіти перейти до певної комірки, і винагорода буде вищою, якщо ми наблизимось. У випадку з прикладом дверей відкриті двері можуть дати високу винагороду.

Після того, як визначено MDP, політику можна дізнатися, зробивши ітерацію вартості або ітерацію політики, яка обчислює очікувану винагороду для кожного з штатів. Потім політика дає кожній державі найкращі дії (з огляду на модель MDP), які можна зробити.

Підводячи підсумок, MDP корисний, коли ви хочете спланувати ефективну послідовність дій, в яких ваші дії можуть бути не завжди на 100% ефективними.

Ваші запитання

Чи можна його використовувати для прогнозування речей?

Я б назвав це плануванням, не прогнозуючи, як, наприклад, регресія .

Якщо так, то які речі?

Дивіться приклади .

Чи може він знайти шаблони серед нескінченної кількості даних?

MDP використовуються для навчання зміцнення , щоб знайти шаблони, які вам потрібні без нагляду . І ні, ви не можете обробити нескінченну кількість даних. Власне, складність пошуку політики зростає експоненціально з кількістю штатів.|S|

Що може зробити цей алгоритм для мене.

Дивіться приклади .

Приклади застосування MDP

А ще є ще кілька моделей. Ще більш цікавою моделлю є процес частково спостережуваного марківського рішення, в якому стани не видно повністю, а натомість використовуються спостереження, щоб отримати уявлення про поточний стан, але це виходить за рамки цього питання.

Додаткова інформація

Стохастичний процес є марківським (або має властивість Маркова), якщо умовний розподіл ймовірностей майбутніх станів залежить лише від поточного стану, а не від попередніх (тобто не від переліку попередніх станів).


2
Це, мабуть, найясніша відповідь, яку я коли-небудь бачив у перехресній валідації.
Прихована Маркова модель

Ви маєте можливість виправити посилання? Деякі з них виглядають ламаними або застарілими.
ComputerScientist

Таким чином , будь-який процес , який має states, actions, transition probabilitiesі rewardsвизначено було б назвати як марковского?
Suhail Gupta
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.