Як AI навчитися діяти, коли проблемний простір занадто великий


10

Я найкраще навчаюся через експерименти та приклад. Я дізнаюся про нейронні мережі і маю (те, що мені здається) - досить добре розуміє класифікацію та регресію, а також кероване та непідконтрольне навчання, але я натрапив на щось, про що я не можу зауважити;

Якби я хотів навчити ШІ грати в складну гру; Я думаю про щось на зразок РТС (наприклад, Епоха Імперій, Земля Імперії тощо). У цих типах ігор, як правило, існує кількість об'єктів, якими керує гравець (підрозділи, будівлі), кожен з яких має різні можливості. Схоже, що проблема AI була б класифікацією (наприклад, виберіть цю одиницю та цю дію), однак, оскільки кількість одиниць є змінною, як можна вирішити проблему класифікації таким чином?

Єдине, про що я можу придумати, - це декілька мереж, які виконують різні етапи (одна для загальної стратегії, одна для управління цим типом блоку, одна для такого типу будівлі тощо); але це здається, що я ускладнюю проблему.

Чи є хороший приклад машинного навчання / нейронних мереж, які вивчають складні ігри (не конкретно RTS, але більш складні Маріо )?



Може бути корисним у відповідь: ijcai.org/papers07/Papers/IJCAI07-168.pdf та огляд того ж: aigamedev.com/open/review/transfer-learning-rts
Ніл Слейтер

Відповіді:


4

Це гарне запитання, і багато вчених у всьому світі задають те саме. Ну, по-перше, така гра, як Age of Empires, не вважає насправді великим простором рішення, не так багато речей можна зробити. Це те саме в іграх, як Mario Bros. Проблему навчання в легких іграх, таких як ігри Atari, вирішили хлопці DeepMind (тут папір ), придбані Google. Вони використовували реалізацію зміцнення навчання з поглибленим навчанням.

Повертаючись до свого питання. Справді велика проблема - як наслідувати кількість рішень, які людина приймає щодня. Прокидайтеся, снідайте, приймайте душ, виходьте з дому ... Всі ці дії потребують дійсно високого рівня інтелекту та багатьох дій, щоб розвиватися.

Над цією проблемою працює багато людей, я один з них. Я не знаю рішення, але можу сказати, в який спосіб я шукаю. Я слідую за теоріями Марвіна Мінського, він один із батьків Ай. Ця книга, машина емоцій, дуже добре розглядає проблему. Він припустив, що спосіб створити машину, яка імітує поведінку людини, - це не побудова єдиної компактної теорії штучного інтелекту. Навпаки, він стверджує, що наш мозок містить ресурси, які змагаються між собою, щоб задовольнити різні цілі в один і той же момент. Вони назвали це Шляхи мислення .


1

Чудове запитання. Це питання складності, і підхід, який ви використовуєте, буде залежати від того, наскільки складною є проблема. Будь-яка проблема, яку ми намагаємося вирішити, матиме ступінь складності, пов’язану з нею, розмовно визначається як "кількість взаємодіючих речей або речей, які потрібно враховувати". У навчанні під наглядом та без нагляду ми точно визначаємо кількість речей, які слід враховувати.

Наприклад, в декількох лінійних регресіях ми розповідаємо алгоритму навчання, скільки функцій слід враховувати при встановленні моделі (кількість стовпців у вашому навчальному наборі). Така ж ситуація стосується і без нагляду за навчанням; використовується чітко визначений навчальний набір з чіткою кількістю функцій (в даному випадку без міток).

З чим ви стикаєтесь - це ситуація, яка не підходить для класифікації чи регресу, оскільки ви не можете точно визначити кількість "речей, які слід врахувати". Як ви кажете, ваш проблемний простір надзвичайно великий. Ще один спосіб подумати над цим - з точки зору навчального набору, необхідного для вивчення моделі; як важко вам уявити, як виглядає навчальний набір? У вашому випадку важко. Що саме міститимуть стовпці мого набору?

Ось чому такі програми, як автомобілі, що керують авто, Atari та AlphaGo не використовують класифікацію чи регресію. Неможливо знати, як виглядатиме навчальний набір. Можна спробувати, але ваша модель не зможе надійно зробити сильні прогнози (в цьому випадку рухається). Скільки всього потрібно розглянути, щоб побудувати модель дорожніх умов?

Ось чому існує третій тип машинного навчання, посилення навчання. Замість того, щоб використовувати заздалегідь заданий навчальний набір, він використовує пробні та помилкові. Постійно тикаючи на своє оточення, він може навчитися політиці, яка працює в довгостроковій перспективі.

Отже, для менших проблемних просторів, де ми маємо шанс визначити навчальний набір, ми використовуємо машинне навчання під наглядом та без нагляду. Для великих проблемних просторів, де важко визначити навчальний набір, ми використовуємо підкріплення. Звичайно, ви також можете зробити цікаві комбінації всіх перерахованих вище підходів, але це все одно зводиться до складності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.