Однозначно є спосіб впровадити те, що багато хто викликає посилене навчання, у реальні додатки для Інтернету, мобільних пристроїв та робочих станцій.
Військові організації роблять це, кіноіндустрія це робить, це роблять компанії, орієнтовані на програмне забезпечення, і я це робив так само для Fortune 500 та малого бізнесу. Є адаптивні компоненти навчання у всіх видах системних компонентів, вбудованих у більші системи, починаючи від роботів розпізнавання обличчя FaceBook до Google Translate до систем розпізнавання поштових індексів USPS до автономних систем управління польотами та трафіком. Програмне забезпечення для автоматизованого проектування (CAD), безумовно, є життєздатною ціллю.
Основи підкріплення
Розглянемо серію векторів, що описують події. Уявіть, що вони поділяються на два підряди А та В. Нейронну мережу (штучну чи біологічну) можна було б навчити за допомогою А.
Навчання може бути під наглядом, тобто один з вимірів вектора вважається міткою, а тому залежна змінна для оптимального прогнозування. Інші виміри потім стають фактами або вхідними сигналами, а тому незалежними змінними, які слід використовувати для прогнозування. Навчання може бути без нагляду з використанням функції вилучення.
У будь-якому випадку, якщо перед B надходить B і очікується виконання у виробництві (реальне використання) до прибуття B, пізніше прибуття B представляє вибір.
- Стерти ваги та будь-які коригування мета-параметрів, здійснені під час тренування за допомогою A, і повторити тренування з з'єднаними серіями A і B.
- Продовжуйте навчання з B, і в цьому випадку мережа буде упереджена A і результат буде відрізнятися від результату, отриманого під час тренування з B, потім A.
- Знайдіть спосіб обмежити упередженість спочатку тренуватися з A, уникаючи споживання ресурсів, необхідних для вибору №1 вище.
Вибір №3 - найкращий вибір у багатьох випадках, оскільки він містить переваги варіантів №1 та №2. Математично №3 робиться шляхом полегшення вибору того, що було вивчено з серії А певним чином. Вага нейронної сітки та коригування мета-параметрів повинні бути сприйнятливими до корекції, оскільки новий досвід свідчить про необхідність цього. Один наївний підхід може сформулювати математично зворотну експоненціальну функцію, яка моделює природний розпад у багатьох явищах фізики, хімії та суспільствознавства.
P = e -nt , де P - ймовірність, що факт все ще є ефективним, n - швидкість занепаду минулої вивченої інформації, а t - деякий показник прогресу вперед, такий як штамп часу, номер підрядкової послідовності (партії), порядковий номер факту або номер події
У випадку підрядів A і B, коли вищевказана формула якимось чином реалізована в механізмі навчання, тренування A покладе менші упередження на кінцевий результат після продовження навчання з використанням B, оскільки t для A менше ніж t для B, кажучи механізму, що B, ймовірно, доречний.
Якщо ми рекурсивно ділимо A і B на половини, створюючи все більш і більш деталізовані підсерії, вищенаведена ідея про те, щоб попередня інформація поступово розпадалася, залишається достовірною і цінною. Зміщення мережі до першої інформації, що використовується для навчання, є еквівалентом психологічних концепцій вузькості. Системи навчання, що перетворилися на мізки ссавців, схоже, забувають або втрачають інтерес до минулих речей, щоб заохотити відкритість, що є не що інше, як дозволяти новому навчанню іноді перешкоджати попередньому навчанню, якщо нова інформація містить більш сильні зразки для вивчення.
Є ДВА причини, що дозволяють новим прикладам даних прогресивно переважати старші приклади.
- Вищеописане усунення упередженості попереднього навчання для адекватного зважування останніх подій у подальшому навчанні має сенс, якщо всі пережиті події (навчені) представляють розумні факти про зовнішній світ, який система намагається дізнатись.
- Зовнішній світ може змінюватися, і старше навчання може насправді стати неактуальним або навіть оманливим.
Це потребує того, щоб важливість попередньої інформації поступово занепадала, оскільки навчання продовжується, є одним з двох основних аспектів посилення. Другий аспект - це набір коригуючих концепцій, побудованих на ідеї сигналізації зворотного зв'язку.
Зворотній зв'язок та армування
Сигналом зворотного зв'язку при посиленому навчанні є машинне навчання, еквівалентне звичним психологічним поняттям, таким як біль, задоволення, задоволення та оздоровлення. Системі навчання надається інформація, яка спрямовує навчання поза ціллю вилучення особливостей, незалежності угруповань або пошуку нейронної матриці чистої ваги, яка наближає взаємозв'язок між ознаками вхідних подій та їх мітками.
Надана інформація може походити внутрішньо з попередньо запрограмованого розпізнавання шаблону або зовні від винагороди та покарання, як це відбувається у ссавців. Методи та алгоритми, що розробляються при посиленому машинному навчанні, використовують ці додаткові сигнали часто (використовуючи відсікання часу в обробці) або постійно використовуючи незалежність процесорних одиниць архітектури паралельної обробки.
Ця робота була першопрохідцем на MIT Норбертом Вінером і викладена в його книзі «Кібернетика» (MIT Press 1948). Слово Кібернетика походить від старішого слова, яке означає керування кораблями . Автоматичне переміщення керма для тримання на ході, можливо, було першою механічною системою зворотного зв'язку. Напевно, у вашого двигуна газонокосарки є такий.
Адаптивні програми та навчання
Проста адаптація в режимі реального часу до положення керма або газонокосарки не вчиться. Така адаптація зазвичай є деякою формою лінійного PID-контролю. Розширена сьогодні технологія машинного навчання охоплює оцінку та контроль складних нелінійних систем, які математики називають хаотичними.
Під хаотичністю вони не означають, що описані процеси перебувають у шаленості або неорганізовані. Хаотики відкрили десятиліття тому, що прості нелінійні рівняння можуть призвести до високоорганізованої поведінки. Що вони означають, це явище занадто чутливе до незначних змін, щоб знайти якийсь фіксований алгоритм чи формулу для їх передбачення.
Мова така. Це ж твердження, що сказане з десяток різних голосових флексій, може означати десяток різних речей. Англійське речення "Дійсно" - приклад. Цілком імовірно, що методи посилення дозволять майбутнім машинам розрізняти великі ймовірності успіху між різними значеннями цього твердження.
Чому ігри першими?
Ігри мають дуже простий і легко визначений набір можливих сценаріїв. Один з головних учасників появи комп'ютера, Джон фон Нойман, аргументував книгу « Теорія ігор та економічної поведінки» , співавтором якої був Оскар Моргенстерн, що все планування та прийняття рішень - це насправді гра в різні складності.
Розгляньте ігри, навчальний приклад набору збору мізків, який з часом створить системи, які можуть визначити значення висловлювання, як освічені люди можуть із трьох джерел підказок.
- Контекст в рамках розмови або соціального сценарію
- Голосові перегини оратора
- Вираз обличчя та мова тіла мовця
Поза шахи та гра в гони
На шляху від ігор до мовних систем з точним розумінням та глибшими можливостями прослуховування є кілька застосувань посиленого навчання, які мають набагато більше значення для землі та людського досвіду.
- Системи, які вчаться вимикати або послаблювати освітлення, прилади, цифрові системи, ОВК та інші пристрої, що споживають енергію - Енергія, мабуть, є найбільш геополітично впливовим товаром в історії людства через виснаження ресурсів викопного палива з часом.)
- Автономна розробка транспортних засобів - небезпечна тенденція експлуатації важкого обладнання, наприклад літаків, позашляховиків, вантажних автомобілів, автобусів і тракторних причепів людьми в невідомих станах розуму на відкритих дорогах, можливо, буде сприйматися майбутніми людьми як божевілля.
- Рейтинг надійності інформації - Інформація є скрізь і понад 99% є помилкою, частково або повністю. Дуже мало підтверджується реальними дослідженнями, або правильно розробленими та інтерпретованими подвійними сліпими рандомізованими дослідженнями, або підтвердимими лабораторними тестуваннями та аналізами.
- Програми охорони здоров’я, які краще діагностують, пристосовують засоби до індивідуального характеру та допомагають при постійній обережності для запобігання рецидиву.
Ці чотири та багато інших набагато важливіше, ніж накопичення багатства за допомогою автоматизованих швидкісних торгів чи виграшних змагань з ігор, двох інтересів машинного навчання, орієнтованих на самоцентризм, що впливають лише на одне чи два покоління сім'ї однієї людини.
Багатство і слава - це те, що в теорії ігор називається грою з нульовою сумою . Вони приносять стільки втрат, скільки є виграшів, якщо врахувати вищу філософію Золотого Правила, що інші та їхні родини мають однакове значення для нас.
Підсилене навчання для програмного забезпечення CAD (Computer Aided Design)
Комп'ютерний дизайн - це природний провісник комп'ютерного дизайну (без допомоги людини), так як антиблокувальні пристрої, природно, призводять до повністю автономних транспортних засобів.
Розгляньте команду: "Створіть мені мильну посуд для мого душу, що збільшує ймовірність того, що моя сім'я може спробувати мило з першої спроби, не відкриваючи очей, і мінімізує труднощі з підтриманням мила та поверхонь душа. Ось висоти члени моєї родини та кілька знімків місця для душу ». Тоді 3D-принтер випустить пристрій, готовий до його приєднання, разом із інструкціями щодо встановлення.
Звичайно, таку систему CD (CAD без A) потрібно було б навчити ведення домашнього господарства, поведінки людини без зору, способів кріплення предметів до плитки, інструментів та можливостей обслуговування домашнього пересічного споживача, можливостей 3D-принтера , та ще декілька речей.
Такі розробки в галузі автоматизації виробництва, ймовірно, починатимуться з посиленого вивчення більш простих команд, таких як "Прикріпіть ці дві частини, використовуючи застібки та кращі практики виробництва". Програма CAD потім вибиратиме обладнання серед гвинтів, заклепок, клеїв та інших варіантів, можливо, задаючи дизайнеру питання щодо робочої температури та вібрації. Вибір, положення та кут буде додано до відповідного набору деталей САПР та креслення та складання матеріалів.