Що мотивувало б машину?


12

В даний час у сфері розвитку ШІ головна увага приділяється розпізнаванню образів та машинному навчанню. Навчання - це коригування внутрішніх змінних на основі циклу зворотного зв'язку.

Ієрархія потреб Маслоу - теорія психології, запропонована Авраамом Маслоу, яка стверджує, що основні потреби людей повинні бути задоволені, перш ніж вони стають мотивованими досягти потреб вищого рівня.

Що може мотивувати машину діяти? Чи повинна машина мати якусь структуру, подібну до ДНК, яка б описувала її ієрархію потреб (подібно до теорії Маслоу)? Які можуть бути основні потреби машини?


1
Цікаве запитання, і ласкаво просимо до AI! (У мене є кілька думок з цього приводу, пов’язаних з теорією ігор. Інші учасники розповіли про цілеспрямоване навчання стосовно алгоритмів.)
DukeZhou

1
Просто кажучи, це була б корисна функція . Ця відповідь може допомогти
Ugnes

Відповіді:


5

Сучасний метод реалізації мотивації - це якась штучна винагорода. Наприклад , DQN Deepmind визначається результатом гри. Чим вище оцінка, тим краще. ШІ вчиться коригувати свої дії, щоб отримати найбільшу кількість очок і, отже, найбільшу винагороду. Це називається підкріпленням навчання . Винагорода мотивує ШІ адаптувати свої дії, так би мовити.

Більш технічним терміном AI хоче максимально використовувати корисність, що залежить від реалізованої функції утиліти . У випадку з DQN це буде максимальний результат у грі.

Людський мозок функціонує аналогічно, хоча трохи складніше і часто не так прямо. Ми як люди, як правило, намагаємось налагодити свої дії для отримання високого виходу дофаміну та серотоніну . Це певним чином схоже на винагороду, яка використовується для контролю ШІ під час навчання підкріплення. Людський мозок дізнається, які дії виробляють найбільшу кількість цих речовин, і знаходить стратегії для максимізації виробництва. Це, звичайно, спрощення цього складного процесу, але ви отримуєте картину.

Коли ви говорите про мотивацію, будь ласка, не змішуйте її зі свідомістю або квалією . Вони взагалі не потрібні для мотивації. Якщо ви хочете обговорити свідомість та квалію в AI, це зовсім інша гра з м'ячем.

Дитині не цікаво заради цікавості. Він отримує позитивне підкріплення при дослідженні, оскільки корисна функція мозку дитини винагороджує дослідження, вивільняючи нагородження нейротрансмітерів. Тож механізм той самий. Застосовувати це до AI означає визначення функції корисності, яка винагороджує новий досвід. Немає внутрішнього приводу без якоїсь посилюючої винагороди.


що стосується редагування, я думаю, що хорошим прикладом "функції корисності, яка винагороджує новий досвід", будуть новинки функції фітнесу для пошуку, запропоновані Кен Стенлі для використання у його акуратному алгоритмі.
nickw

5

Це фактично цікаве питання.

У книзі "Про інтелект", яку написали Джефф Хокінс та Сандра Блекслі, існує цілком реальна ідея про те, "звідки може виникнути цікавість".

Він заснований на таких твердженнях:

  • Розум створює власну модель світу, в якій він існує.

  • Він робить прогнози про все постійно (насправді Джефф Хокінс заявляє, що це головна характеристика інтелекту).

  • Коли передбачення чогось не супроводжується відповідною поведінкою світу, тоді ця річ стає дуже цікавою для розуму (модель неправильна і її слід виправити) і потребує більшої уваги.

Наприклад, коли ви дивитесь на ліве людське око, ваш мозок передбачає, що це людське обличчя, а праворуч має бути друге око. Ви дивитесь праворуч і бачите .. ніс! Ось так сюрприз! Зараз це забирає всю вашу увагу, і у вас є ця мотивація робити більше спостережень щодо такої дивної речі, яка не вписується у вашу модель.

Тому я б сказав, що AI може зробити щось певне за своєю моделлю або поводитись випадковим чином, поки прогнози, які він робить про світ, вірні. Але після того, як якийсь прогноз порушений, AI отримує мотивацію робити виправлення помилок у своїй моделі.

У простому випадку машина запускається в повній випадковості, роблячи все, що тільки може, з її результатом. Хоча у нього немає моделі або випадкової моделі, коли вона виявляє якийсь порядок або повторювані шаблони, він стає "зацікавленим" і додає його до моделі. Через деякий час модель стає більш досконалою, роблячи складніші прогнози та виявляючи помилки вищого рівня в моделі. Повільно стає зрозуміти, що робити, щоб спостерігати щось цікаве, а не просто згадувати все.


Дякую за внесок! Я прийшов до таких же висновків ... тепер думаю про спосіб їх втілення :)
Олексій Мейде

Ця відповідь робить важливий момент. Виправлення помилок на моделях прогнозування дасть чудовий стимул інтелектуальному інтелектуальному апарату навчитися та діяти допитливо.
Сет Сімба

3

Я запитав у професора Річарда Саттона подібне запитання на першій лекції курсу з посилення. Здається, є різні способи мотивації машини. Насправді машинна мотивація мені здається відданою сферою досліджень.

Зазвичай машини мотивовані тим, що ми називаємо цільовою функцією або функцією витрат або функцією збитку . Це різні назви одного і того ж поняття. Іноді їх позначають через

L(а)

хваL(а)максаL(а)L


1

Я провів деякий час, думаючи про це в контексті ігор.

Проблема функцій винагороди полягає в тому, що вони, як правило, включають вузли зважування, що корисно, але в кінцевому рахунку матеріально безглуздо.

Ось дві матеріально значущі нагороди:

КОМП'ЮТЕРНІ РЕСУРСИ

Розглянемо гру, де AI змагається не за очки, а за час процесора та пам'ять.

Чим краще алгоритм працює в грі, тим більше пам’яті та обробці має доступ до неї. Це має практичний ефект - чим більше ресурсів доступно для автоматів, тим сильніші її можливості. (тобто його раціональність менш обмежена у часі та просторі для прийняття рішення.) Таким чином, алгоритм буде "мотивований" переважати над таким змаганням.

ЕНЕРГІЯ

Будь-які автомати з достатньою мірою "самосвідомості", тут конкретно посилаючись на знання про те, що для переробки потрібна енергія, мотивували б самооптимізувати власний код, щоб усунути непотрібне гортання бітів (зайве споживання енергії.)

Такий алгоритм також мотивується для забезпечення його живлення, щоб він міг продовжувати функціонувати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.