У яких ситуаціях із реального життя ми можемо використовувати алгоритм бандитів з кількома руками?

15

Багатогранні бандити добре працюють у ситуаціях, коли у вас є вибір, і ви не впевнені, який з них дозволить максимально покращити ваше самопочуття. Можна використовувати алгоритм для деяких реальних життєвих ситуацій. Як приклад, навчання може бути хорошим полем:

Якщо дитина вивчає столярні вироби і йому погано в цьому, алгоритм скаже йому / їй, що йому, мабуть, потрібно буде рухатися далі. Якщо він / вона хороший у цьому, алгоритм підкаже йому / їй продовжувати вивчати це поле.

Знайомства - це також добре поле:

Ти чоловік, який докладаєш багато зусиль у переслідуванні леді. Однак ваші зусилля, безумовно, не бажають. Алгоритм повинен "злегка" (або сильно) підштовхнути вас рухатися далі.

Для яких інших ситуацій у реальному житті ми можемо використовувати алгоритм бандитів з кількома руками?

_{PS: Якщо питання занадто широке, залиште коментар. Якщо є консенсус, я зніму своє запитання.}

algorithms reinforcement-learning multiarmed-bandit

— Енді К
джерело

3

Зважаючи на те, що є 3 відповіді, що підтверджуються (поки що), я не думаю, що це занадто широка відповідь.

— gung - Відновіть Моніку

@gung У мене більше результатів, але вони не відображаються на моєму рахунку. Як це?

— Енді К

5

Це тому, що ця тема - це wiki спільноти (CW), @AndyK. Коли нитка є CW, люди не отримують репутації від оновлених версій (або втрачають її з низовин). Ви б заробляли значки як звичайно. Питання на кшталт цього, що вимагають списки речей та там, де немає жодної, чіткої «правильної» відповіді, на веб-сайтах SE мають бути поза темою. Наш компроміс (я вважаю, що і інші сайти роблять це) полягає в тому, щоб дозволити такі питання в кожному конкретному випадку, але зробити їх CW.

— gung - Відновити Моніку

досить справедливо @gung

— Енді К

1

вступ до коледжу. Вибір показників для відбору одержувачів для подарованих органів.

— EngrStudent

8

Коли ви граєте в оригінальні ігри Pokemon (червоний або синій і жовтий) і потрапляєте в місто Celadon, у ракетних ігрових автоматів Team різні шанси. Багаторукий бандит прямо там, якщо ви хочете оптимізувати отримання цього порігону дуже швидко.

Люди серйозно говорять про проблему з вибором настройки змінних в машинному навчанні. Особливо, якщо у вас багато змінних, про розвідку щодо експлуатації заговорюється. Дивіться, як Spearmint або навіть новий документ у цій темі, який використовує надто простий алгоритм для вибору параметрів настройки (і спосіб перевершує інші методи настройки змінних)

— www3
джерело

6

Їх можна використовувати в умовах біомедичного лікування / дослідження дизайну. Наприклад, я вірю алгоритми Q-навчання використовуються в послідовній, множинній призначенню, рандомізованій пробній версії ( випробування SMART ). Вкрай ідея полягає в тому, що режим лікування оптимально адаптується до прогресу, який досягає пацієнт. Зрозуміло, як це може бути найкращим для окремого пацієнта, але воно може бути і більш ефективним у рандомізованих клінічних випробуваннях.

— gung - Відновити Моніку
джерело

Дякую @gung. Я не знав про цей алгоритм. Я прочитаю його

— Енді К

6

Вони використовуються в A / B тестуванні інтернет-реклами, де різні оголошення відображаються різним користувачам і на основі результатів приймаються рішення про те, яку рекламу потрібно показувати в майбутньому. Про це описано в хорошій статті дослідник Google Стівен Л. Скотт .

— Тім
джерело

Дякую @Tim Я читав, що vwo.com/blog/multi-armed-bandit-algorithm

— Andy K

2

Я запитав те саме питання щодо Quora

Ось відповідь

Виділення фінансування для різних підрозділів організації

Вибір найкращих спортсменів із групи студентів з обмеженим часом та довільним порогом відбору

Максимізація заробітку на веб-сайті при одночасному тестуванні нових функцій (замість тестування A / B) Ви можете використовувати їх у будь-який час, коли вам потрібно, щоб оптимізувати результати, коли у вас недостатньо даних для створення суворої статистичної моделі.

— Енді К
джерело