Чи є якісь додатки навчання підкріплення, крім ігор?

Чи є спосіб навчити підкріплення навчання в додатках, крім ігор?

Єдині приклади, які я можу знайти в Інтернеті, - це ігрові агенти. Я розумію, що VNC контролює вхід в ігри через мережу підкріплення. Чи можна встановити це за допомогою програмного забезпечення CAD?

reinforcement-learning applications

— Mark Markrowave Charlton
джерело

Так, це можливо, але справжнє питання має бути ефективнішим, ніж інші алгоритми чи ні. Якщо у вас є конкретна мета, ви можете думати про неї та моделювати її як гру (навіть життя - це гра;)). Насправді, багато успішних ШІ скористалися більш ніж однією технікою. Подивіться на це: datascience.stackexchange.com/questions/11126/…

— TasosGlrs

Суть щодо AlphaGo полягає в тому, що певний тип гри ( нетривіальна , не випадкова, досконала інформація), зокрема, є чудовим доказом для ШІ, оскільки ці ігри мають дуже прості параметри, але складність схожа на природу. Ігри, з певної точки зору, є найкориснішими видами артефактів, оскільки вони вчать абстрактного та стратегічного мислення. Щоб зрозуміти важливість ігор, подивіться на вплив теорії ігор на інформатику .

— DukeZhou

Це може бути через НДА. Найкращі програми для навчання є власником, а також найкраще програмне забезпечення для стільникових веж або найкраще розпізнавання голосу або найкращі інтернет-торгові центри. Це взагалі інженерія.

— Fauhhristian

Правильно. Якщо все є теорія ігор, світ стає грою.

— FelicityC

Відповіді:

Один із класних прикладів навчання підкріплення - це автономний літаючий вертоліт. У мене був шанс дізнатися деякі речі, зроблені останнім часом Ендрю Нг та інші. Ось стаття для дослідження . Є й інші подібні папери. Ви можете їх google, якщо хочете дізнатися більше.

Ви також можете побачити його в дії в цьому відео на YouTube .

Ось ще одне зовсім інше застосування у фінансах, мабуть.

Ви побачите чимало прикладів ігор у навчальній літературі для підкріплення, оскільки ігрові середовища часто можуть бути кодовані ефективно та швидко працювати на одному комп’ютері, який може містити середовище та агент. Для класичних ігор, таких як нарди, шашки, шахи, йдуть люди, з якими ми можемо порівняти результати. Для порівняння різних підходів зазвичай використовуються певні ігри або спрощені ігри, подібні до ігор, подібно до того, як MNIST рукописні цифри використовуються для порівняння підходів, що контролюються.

Чи є спосіб навчити підкріплення навчання в додатках, крім ігор?

Так. Неофіційно ви можете застосовувати підходи до посилення навчання, коли ви можете вирішити проблему як агент, який діє в середовищі, де він може бути поінформований про стан і цілі, що впливають на цінність винагороди. Більш формально теорія навчання підкріплення базується на рішеннях процесів рішення Маркова , тому, якщо ви можете підписати опис проблеми до MDP, тоді можуть застосовуватися різні методи, використовувані в RL - такі як Q-навчання, SARSA, REINFORCE. Це пристосування до теорії не повинно бути ідеальним для роботи системи, що працює в результаті, наприклад, ви часто можете ставитися до невідомого або недосконало спостережуваного стану як до ефективного випадкового агента, і вважати цю частину стохастичним середовищем.

Ось кілька прикладів можливого використання для підкріплення навчання поза межами рекреаційних ігор:

Логіка управління моторизованим роботом, наприклад, навчитися гортати млинці та інші приклади . Тут вимірювання навколишнього середовища робляться фізичними датчиками на робота. Винагорода призначається за виконання мети, але також може бути налаштована на плавність, економічне використання енергії тощо. Агент вибирає дії низького рівня, такі як крутний момент двигуна або положення реле. Теоретично можуть бути вкладені агенти, де вищі рівні обирають цілі для нижчих - наприклад, робот може вирішити на високому рівні між виконанням однієї з трьох завдань, що вимагають переміщення в різні місця, і на нижчому рівні може бути рішення про те, як керувати моторами для переміщення робота до обраної мети.
Автомобільні машини. Хоча велика увага приділяється інтерпретації сенсорів - видно дорожню розмітку, пішоходів тощо, необхідна система управління для вибору акселератора, гальма та рульового управління.
Автоматизована фінансова торгівля. Можливо, гра для когось, є чіткі реальні наслідки. Сигнал про винагороду досить простий, і RL може бути налаштований так, щоб віддавати перевагу довгостроковому чи короткостроковому виграшу.

чи можна налаштувати це за допомогою програмного забезпечення CAD?

Теоретично так, але я не знаю, що може бути для цього на практиці. Також вам потрібна одна або кілька цілей на увазі, що ви кодуєте в агент (як нагородні значення, які він може спостерігати), перш ніж давати йому віртуальну мишу і задавати завдання намалювати щось. Комп'ютерні ігри мають схему винагород, вбудовану як їх систему балів, і забезпечують часті відгуки, тому агент може швидко отримати знання про хороші проти поганих рішень. Вам потрібно буде замінити цей бальний компонент чимось, що відображає ваші цілі для системи на базі CAD.

CAD не має нічого підходящого вбудованого, хоча інструменти САПР із імітацією, такі як різні фізичні двигуни чи аналіз кінцевих елементів, можуть дозволяти оцінювати конструкції на основі імітованого фізичного виміру. Інші можливості включають аналіз деформації, нераціонального використання матеріалів, незалежно від того, які показники система CAD / CAM може забезпечити для часткового або завершеного проектування. Хитра частина - обмеження дизайну до його мети чи мети, або або організація того, щоб винагороджуватися, або побудова обмежень у навколишньому середовищі; надання агенту RL повного необмеженого контролю над процесом САПР та винагорода за найменший штам, швидше за все, призведе до чогось нецікавого, наприклад, маленького куба.

— Ніл Слейтер
джерело

Безліч підходящих речей: автоматичне розмірність для досягнення максимальної чіткості зору, пошук перешкод для рухомих деталей під напругою (без FEA), оптимізація виходу CAM, надання прискорення з використанням приблизної інформації про глибину z тощо, тощо, тощо

— FauChristian

@FauChristian: Я не впевнений, що всі вони можуть подаватись як сигнал нагороди так само, як ігровий рахунок. Наприклад, оптимізація конструкції для зменшеного деформації передбачає, що ваш дизайн має мету - вам також потрібно додати деякі обмеження / правила для відстеження цієї мети, а це може бути складніше, якщо ви також не маєте ергономічного аналізу. Однак коментар додає деякі речі, які я міг би згадати, і додасть у відповідь.

— Ніл Слейтер

Так. Правда. Я постараюсь. Вибачте, будь ласка, рядок коментарів, які мені знадобляться. У кожному випадку вище моєю метою буде об'єднати проблеми механічного конструктора в єдиний оздоровчий сигнал, який міг би керувати ітераціями, маючи на увазі, що може бути декілька органів NN, кожен з яких може подаватися різною сукупністю. Але для простоти я згуртую кожний випадок на скаляр. Наявність стохастичного елемента знадобиться для більшості з них, оскільки більшість випадків у САПР мають декілька критичних точок на поверхні сукупного значення.

— Fauhhristian

Автовимірювання - w = sqrt (Σ min (s_clear, s_nice)) + k n_jumps, ... де ... w - сукупність якості стану розмірності креслення, з якого може бути отриманий нормалізований сигнал зворотного зв'язку, s_clear - відстань між розмірною лінією та найближчою іншою лінією, виключаючи лінії стрибка, s_nice - це метапараметр, що представляє добру відстань між лініями для розмірного типу малюнка, k - константа, а n_jumps - кількість ліній стрибка ( де лінії будуть перетинатися, але одна з двох має проміжок, щоб вказати, що він стрибає за іншою лінією).

— Fauhhristian

Інтерференційні пошуки - w = n, ... де ... w - сукупність якості пошуку перешкод і n - кількість втручань, знайдених після подання ітераційних здогадок, у динамічне моделювання здогадки. Це подібно до гри в тому, що чим правильніше втручання здогадується, тим вищий бал.

— Фахрістіан

Однозначно є спосіб впровадити те, що багато хто викликає посилене навчання, у реальні додатки для Інтернету, мобільних пристроїв та робочих станцій.

Військові організації роблять це, кіноіндустрія це робить, це роблять компанії, орієнтовані на програмне забезпечення, і я це робив так само для Fortune 500 та малого бізнесу. Є адаптивні компоненти навчання у всіх видах системних компонентів, вбудованих у більші системи, починаючи від роботів розпізнавання обличчя FaceBook до Google Translate до систем розпізнавання поштових індексів USPS до автономних систем управління польотами та трафіком. Програмне забезпечення для автоматизованого проектування (CAD), безумовно, є життєздатною ціллю.

Основи підкріплення

Розглянемо серію векторів, що описують події. Уявіть, що вони поділяються на два підряди А та В. Нейронну мережу (штучну чи біологічну) можна було б навчити за допомогою А.

Навчання може бути під наглядом, тобто один з вимірів вектора вважається міткою, а тому залежна змінна для оптимального прогнозування. Інші виміри потім стають фактами або вхідними сигналами, а тому незалежними змінними, які слід використовувати для прогнозування. Навчання може бути без нагляду з використанням функції вилучення.

У будь-якому випадку, якщо перед B надходить B і очікується виконання у виробництві (реальне використання) до прибуття B, пізніше прибуття B представляє вибір.

Стерти ваги та будь-які коригування мета-параметрів, здійснені під час тренування за допомогою A, і повторити тренування з з'єднаними серіями A і B.
Продовжуйте навчання з B, і в цьому випадку мережа буде упереджена A і результат буде відрізнятися від результату, отриманого під час тренування з B, потім A.
Знайдіть спосіб обмежити упередженість спочатку тренуватися з A, уникаючи споживання ресурсів, необхідних для вибору №1 вище.

Вибір №3 - найкращий вибір у багатьох випадках, оскільки він містить переваги варіантів №1 та №2. Математично №3 робиться шляхом полегшення вибору того, що було вивчено з серії А певним чином. Вага нейронної сітки та коригування мета-параметрів повинні бути сприйнятливими до корекції, оскільки новий досвід свідчить про необхідність цього. Один наївний підхід може сформулювати математично зворотну експоненціальну функцію, яка моделює природний розпад у багатьох явищах фізики, хімії та суспільствознавства.

P = e ^-nt , де P - ймовірність, що факт все ще є ефективним, n - швидкість занепаду минулої вивченої інформації, а t - деякий показник прогресу вперед, такий як штамп часу, номер підрядкової послідовності (партії), порядковий номер факту або номер події

У випадку підрядів A і B, коли вищевказана формула якимось чином реалізована в механізмі навчання, тренування A покладе менші упередження на кінцевий результат після продовження навчання з використанням B, оскільки t для A менше ніж t для B, кажучи механізму, що B, ймовірно, доречний.

Якщо ми рекурсивно ділимо A і B на половини, створюючи все більш і більш деталізовані підсерії, вищенаведена ідея про те, щоб попередня інформація поступово розпадалася, залишається достовірною і цінною. Зміщення мережі до першої інформації, що використовується для навчання, є еквівалентом психологічних концепцій вузькості. Системи навчання, що перетворилися на мізки ссавців, схоже, забувають або втрачають інтерес до минулих речей, щоб заохотити відкритість, що є не що інше, як дозволяти новому навчанню іноді перешкоджати попередньому навчанню, якщо нова інформація містить більш сильні зразки для вивчення.

Є ДВА причини, що дозволяють новим прикладам даних прогресивно переважати старші приклади.

Вищеописане усунення упередженості попереднього навчання для адекватного зважування останніх подій у подальшому навчанні має сенс, якщо всі пережиті події (навчені) представляють розумні факти про зовнішній світ, який система намагається дізнатись.
Зовнішній світ може змінюватися, і старше навчання може насправді стати неактуальним або навіть оманливим.

Це потребує того, щоб важливість попередньої інформації поступово занепадала, оскільки навчання продовжується, є одним з двох основних аспектів посилення. Другий аспект - це набір коригуючих концепцій, побудованих на ідеї сигналізації зворотного зв'язку.

Зворотній зв'язок та армування

Сигналом зворотного зв'язку при посиленому навчанні є машинне навчання, еквівалентне звичним психологічним поняттям, таким як біль, задоволення, задоволення та оздоровлення. Системі навчання надається інформація, яка спрямовує навчання поза ціллю вилучення особливостей, незалежності угруповань або пошуку нейронної матриці чистої ваги, яка наближає взаємозв'язок між ознаками вхідних подій та їх мітками.

Надана інформація може походити внутрішньо з попередньо запрограмованого розпізнавання шаблону або зовні від винагороди та покарання, як це відбувається у ссавців. Методи та алгоритми, що розробляються при посиленому машинному навчанні, використовують ці додаткові сигнали часто (використовуючи відсікання часу в обробці) або постійно використовуючи незалежність процесорних одиниць архітектури паралельної обробки.

Ця робота була першопрохідцем на MIT Норбертом Вінером і викладена в його книзі «Кібернетика» (MIT Press 1948). Слово Кібернетика походить від старішого слова, яке означає керування кораблями . Автоматичне переміщення керма для тримання на ході, можливо, було першою механічною системою зворотного зв'язку. Напевно, у вашого двигуна газонокосарки є такий.

Адаптивні програми та навчання

Проста адаптація в режимі реального часу до положення керма або газонокосарки не вчиться. Така адаптація зазвичай є деякою формою лінійного PID-контролю. Розширена сьогодні технологія машинного навчання охоплює оцінку та контроль складних нелінійних систем, які математики називають хаотичними.

Під хаотичністю вони не означають, що описані процеси перебувають у шаленості або неорганізовані. Хаотики відкрили десятиліття тому, що прості нелінійні рівняння можуть призвести до високоорганізованої поведінки. Що вони означають, це явище занадто чутливе до незначних змін, щоб знайти якийсь фіксований алгоритм чи формулу для їх передбачення.

Мова така. Це ж твердження, що сказане з десяток різних голосових флексій, може означати десяток різних речей. Англійське речення "Дійсно" - приклад. Цілком імовірно, що методи посилення дозволять майбутнім машинам розрізняти великі ймовірності успіху між різними значеннями цього твердження.

Чому ігри першими?

Ігри мають дуже простий і легко визначений набір можливих сценаріїв. Один з головних учасників появи комп'ютера, Джон фон Нойман, аргументував книгу « Теорія ігор та економічної поведінки» , співавтором якої був Оскар Моргенстерн, що все планування та прийняття рішень - це насправді гра в різні складності.

Розгляньте ігри, навчальний приклад набору збору мізків, який з часом створить системи, які можуть визначити значення висловлювання, як освічені люди можуть із трьох джерел підказок.

Контекст в рамках розмови або соціального сценарію
Голосові перегини оратора
Вираз обличчя та мова тіла мовця

Поза шахи та гра в гони

На шляху від ігор до мовних систем з точним розумінням та глибшими можливостями прослуховування є кілька застосувань посиленого навчання, які мають набагато більше значення для землі та людського досвіду.

Системи, які вчаться вимикати або послаблювати освітлення, прилади, цифрові системи, ОВК та інші пристрої, що споживають енергію - Енергія, мабуть, є найбільш геополітично впливовим товаром в історії людства через виснаження ресурсів викопного палива з часом.)
Автономна розробка транспортних засобів - небезпечна тенденція експлуатації важкого обладнання, наприклад літаків, позашляховиків, вантажних автомобілів, автобусів і тракторних причепів людьми в невідомих станах розуму на відкритих дорогах, можливо, буде сприйматися майбутніми людьми як божевілля.
Рейтинг надійності інформації - Інформація є скрізь і понад 99% є помилкою, частково або повністю. Дуже мало підтверджується реальними дослідженнями, або правильно розробленими та інтерпретованими подвійними сліпими рандомізованими дослідженнями, або підтвердимими лабораторними тестуваннями та аналізами.
Програми охорони здоров’я, які краще діагностують, пристосовують засоби до індивідуального характеру та допомагають при постійній обережності для запобігання рецидиву.

Ці чотири та багато інших набагато важливіше, ніж накопичення багатства за допомогою автоматизованих швидкісних торгів чи виграшних змагань з ігор, двох інтересів машинного навчання, орієнтованих на самоцентризм, що впливають лише на одне чи два покоління сім'ї однієї людини.

Багатство і слава - це те, що в теорії ігор називається грою з нульовою сумою . Вони приносять стільки втрат, скільки є виграшів, якщо врахувати вищу філософію Золотого Правила, що інші та їхні родини мають однакове значення для нас.

Підсилене навчання для програмного забезпечення CAD (Computer Aided Design)

Комп'ютерний дизайн - це природний провісник комп'ютерного дизайну (без допомоги людини), так як антиблокувальні пристрої, природно, призводять до повністю автономних транспортних засобів.

Розгляньте команду: "Створіть мені мильну посуд для мого душу, що збільшує ймовірність того, що моя сім'я може спробувати мило з першої спроби, не відкриваючи очей, і мінімізує труднощі з підтриманням мила та поверхонь душа. Ось висоти члени моєї родини та кілька знімків місця для душу ». Тоді 3D-принтер випустить пристрій, готовий до його приєднання, разом із інструкціями щодо встановлення.

Звичайно, таку систему CD (CAD без A) потрібно було б навчити ведення домашнього господарства, поведінки людини без зору, способів кріплення предметів до плитки, інструментів та можливостей обслуговування домашнього пересічного споживача, можливостей 3D-принтера , та ще декілька речей.

Такі розробки в галузі автоматизації виробництва, ймовірно, починатимуться з посиленого вивчення більш простих команд, таких як "Прикріпіть ці дві частини, використовуючи застібки та кращі практики виробництва". Програма CAD потім вибиратиме обладнання серед гвинтів, заклепок, клеїв та інших варіантів, можливо, задаючи дизайнеру питання щодо робочої температури та вібрації. Вибір, положення та кут буде додано до відповідного набору деталей САПР та креслення та складання матеріалів.

— Дуглас Дазееко
джерело

Як правило, я не став би критично коментувати відповідь на це добре написане, але оскільки ви попросили критику: я вважаю, що розділи Основи підкріплення , зворотного зв’язку та зміцнення та адаптивні програми та навчання, хоча це цікаво, можуть бути значно скорочені, оскільки Питання ОП вже передбачає певні знання щодо РЛ, і ви витрачаєте багато часу на налаштування цього пов'язаного фонового обговорення, перш ніж вирішувати оригінальне питання.

— Ніл Слейтер

Що ОП, поставлене питання, вказує на дірки або сучасний стан досліджень, що свідчить про когось нового в цій галузі, і може знадобитися грунтовка в попередніх розділах. Останній розділ більш прямо відповідає на питання.

— Фахристиян