Яка функція винагороди приводить до оптимального навчання?


13

Давайте подумаємо про наступні ситуації:

  • Ви навчаєте робота грати в пінг-понг
  • Ви навчаєте програму обчислення квадратного кореня
  • Ви вчите математику дитині в школі

У таких ситуаціях (тобто під контролем навчання) та багатьох інших є спільне одне (серед інших): учень отримує винагороду за результатами своєї роботи.

Моє запитання: як повинна виглядати функція винагороди? Чи є "найкраща" відповідь, чи це залежить від ситуації? Якщо це залежить від ситуації, як визначити, яку функцію винагороди вибрати?

Наприклад, візьміть такі три функції нагородження:

введіть тут опис зображення

  • Функція Aговорить:
    • нижче певного моменту, погано чи гірше - те саме: ви нічого не отримуєте
    • є чітка різниця між майже добрим і ідеальним
  • Функція Bговорить:
    • ви отримуєте винагороду лінійно пропорційну вашій ефективності
  • Функція Cговорить:
    • якщо ваша продуктивність погана, це нормально, ви зробили все можливе: ви все одно отримаєте якусь нагороду
    • різниці між ідеальним і майже хорошим не дуже

Інтуїтивно, я б подумав, Aщо зробить робота дуже зосередженим і навчиться точної схеми, але став би дурним при роботі з подібними зразками, в той час як Cзробив би його більш пристосованим до зміни ціною втрати вдосконалення.

Можна також подумати про складніші функції, просто показати, але мало:

введіть тут опис зображення

Отже, як можна знати, яку функцію вибрати? Є чи це відомо , яка поведінка буде виходити з (по крайней мере) основні A, Bі Cфункцій?


Побічне питання: чи це кардинально відрізнятиметься від роботів та людських дітей?


Я сумніваюся, що робот став би дурним, роблячи те саме чи подібне, щоразу і знову, якщо не бути кібернетичним.
ott--

@ott, це не те, що я мав на увазі. Що я мав на увазі, з функцією винагороди, схожою на A, робот міг стати надзвичайно хорошим у виконанні точного завдання, але жахливим у завданнях, схожих, але трохи інших. Це лише моє здогадування.
Шахбаз

Ага, добре, я бачу. Ви думаєте про теніс, наприклад
ott--

Можливо, теорія, що стоїть за цим, могла б бути складною, але відповідь, яка говорить: "Я думав, що різні задачі для багатьох роботів і часто функціонування Xдавали мені найкращий результат", навіть якщо це не зовсім коректно, дав би велике правило.
Шахбаз

Відповіді:


5

Коротка відповідь: найсильніший підкріплюючий ефект виникає внаслідок отримання цінної винагороди за переривчастим (випадковим) графіком.

Більш дрібна версія: Один аспект вашого питання стосується кондиціонування , принаймні, як це стосується навчання математики складному організму. Застосування цього до машинного навчання відомо як підкріплення навчання .

Економіка (відповідно до відповіді jwpat7 ) стосується лише однієї частини історії підкріплення. Функція утиліти говорить вам про те, яка винагорода має найсильніший підкріплюючий ефект (найбільший вплив на поведінку) у заданому контексті. Це похвала? шоколад? кокаїну? пряма електрична стимуляція до певних ділянок мозку? В основному моя відповідь стосується ефекту контексту, припускаючи задану корисність.

Для складних організмів / поведінки планування розплати є не менш важливим, як корисність винагороди:

  • "Графік винагород з фіксованим інтервалом" є найменш ефективним способом модифікувати поведінку із заданою кількістю винагороди (я дам вам 10 доларів на тиждень, якщо ви будете тримати свою спальню в порядку). Подумайте про дурман.
  • Графіки винагород з фіксованим співвідношенням (я дам вам 10 доларів кожні сім днів у вас в охайній спальні) ефективніші, ніж фіксовані інтервали, але вони мають своєрідну стелю ефективності (суб’єкт прибирає свою кімнату сім разів, коли вони голодні за $ 10, але не інакше). Подумайте корисливим.
  • Найвпливовіший спосіб доставити дану винагороду за допомогою "змінного розкладу підкріплення інтервалу" (наприклад, кожен день, коли ви прибираєте свою спальню, ви маєте 1/7 шансів отримати 10 доларів). Подумайте про покерну машину.

Якщо ви навчальний керівник з фіксованим бюджетом на винагороду, для даної навчальної ситуації буде оптимальний баланс розміру винагороди (корисності) та частоти. Напевно, це не дуже маленький шматочок винагороди на дуже високій частоті, а також не дуже великий шматок винагороди, який вручається дуже рідко. Це може бути навіть винагорода за випадковий розмір за випадковим графіком - оптимум зазвичай визначається експериментально для конкретної ситуації.

Нарешті, "оптимальний" графік (випадкова частота, випадкова кількість {p (винагорода), p (значення)}), ймовірно, змінюватиметься на різних етапах процесу навчання. Наприклад, новий учень може піддатися ефекту "першості" (ласкаво просимо! Майте квасоля), яка швидко стає нагородою з фіксованим інтервалом, якщо ви повторите це. Можливо, буде ефект "гостроти", який отримує більше значення підкріплення від нагороди, отриманої за останній випробування ("закінчення на високій ноті"). Між тим, може виникнути накопичувальний "ефект віри", коли, оскільки учень стає більш досвідченим, оптимум може з часом змінитися у бік меншої ймовірності та більшої корисності. Знову ж таки, більше речей, які слід емпірично визначити у вашій ситуації.


Дуже цікава відповідь. Це має багато сенсу.
Шахбаз

Я читаю цю відповідь ще раз, і я знову хочу сказати, наскільки велика ця відповідь! Насправді, дозвольте мені дати вам щедрості!
Шахбаз

6

"Оптимальне навчання" - дуже неясний термін, і він повністю залежить від конкретної проблеми, над якою ви працюєте. Термін, який ви шукаєте, - " надмірний ": введіть тут опис зображення

(Зелена лінія - це помилка в прогнозуванні результату за навчальними даними, фіолетова лінія - якість моделі, а червона - помилка вивченої моделі, що використовується "у виробництві")

Іншими словами: якщо мова йде про адаптацію вашої вивченої поведінки до подібних проблем, те, як ви нагородили свою систему, менш важливо, ніж скільки разів ви її нагороджували - ви хочете зменшити помилки в навчальних даних, але не тримати їх у навчанні. довго, що вона втрачає можливість працювати на подібних моделях.

Один із способів вирішення цієї проблеми - скоротити свої дані тренувань навпіл: використовуйте одну половину для навчання, а другу половину для підтвердження навчання. Це допомагає визначити, коли ви починаєте перестаратися.

Нелінійні функції винагороди

Більшість алгоритмів навчання під наглядом очікують, що застосування функції винагороди дасть опуклий вихід. Іншими словами, наявність локальних мінімумів на цій кривій перешкоджатиме конвергенції вашої системи до належної поведінки. Це відео показує трохи математики, яка стоїть за функціями витрат / винагороди .


3

Ці питання певною мірою вирішуються шляхом вивчення корисних функцій в економіці. Функція корисності виражає ефективні або сприйняті значення однієї речі з точки зору іншої. (Хоча криві, наведені у питанні, є функціями винагороди та виражають, яка сума винагороди буде запропонована за різні рівні продуктивності, схожі на вигляд функції утиліти можуть виражати, скільки результатів має результат від різних рівнів винагороди.)

Яка функція винагороди буде найкраще працювати, залежить від рівноваги між платником та виконавцем. Стаття кривої контракту на вікіпедію ілюструє полями Еджворт, як знайти ефективні розподіли Pareto. Корисності фон Неймана-Моргенштерна теорема окреслює умови, що забезпечують , що агент є VNM-раціональним і можуть бути охарактеризовані як такі, що функцію корисності. У розділі «Поведінкові прогнози, що виникають в результаті корисної програми HARA» статті статті про абсолютну відмову від гіперболічного ризику у вікіпедії описуються поведінкові наслідки певних функцій корисності.

Короткий зміст: Ці теми були предметом величезного вивчення економіки та мікроекономіки. На жаль, витягнення короткого та корисного резюме, яке відповідає на ваше запитання, також може зажадати величезної роботи, або уваги когось, більш досвідченого, ніж я.


Це досить складно, я не впевнений, чи розумію це. Але ви впевнені, що корисна функція економіки стосується і робототехніки? При контрольованому навчанні (робота) платник насправді нічого не втрачає. Нагородою часто було б лише число, яке повідомляє робота про те, як добре вони виконали завдання.
Шахбаз

1

Оптимальна функція винагороди залежить від мети навчання, тобто того, що має бути засвоєно. Для простих проблем може бути можливим знайти представлення закритої форми для оптимальної функції винагороди. Насправді для дійсно простих проблем я впевнений, що це можливо, хоча я не знаю формальних методів для цього (я підозрюю, що теорія корисності вирішила б це питання). Для складніших проблем я б стверджував, що знайти рішення закритої форми неможливо.

Замість того, щоб шукати оптимальної функції, ми могли б звернутися до експерта за гарну функцію винагороди. Один із підходів до цього - це методика під назвою навчання зворотного посилення (IRL). Він формулює проблему навчання як посилюючу проблему навчання, коли функція винагороди невідома та мета навчального процесу. Навчання у навчанні за допомогою методу зворотного підсилення Пітера Аббіля та Ендрю Нґ - це гарне місце для початку вивчення IRL.


0

Будь-яка форма керованого навчання - це спрямований пошук у політичному просторі. Ви намагаєтеся знайти політику, яку дію зробити - яка забезпечує максимальне очікування винагороди. У своєму питанні ви даєте винагороду як функцію ефективності. Поки ця функція є монотонною, будь-який метод, який зблизиться, в кінцевому підсумку дасть вам максимальну продуктивність (занадто залишайтеся з термінологією).

Наскільки швидкий метод конвергенції - інша справа, і це може залежати від кривої. Але я думаю, що це буде відрізнятися від методу до методу.

Зовсім інша проблема полягає в тому, що для складніших сценаріїв ефективність не є простою шкалою, і визначити її може бути досить складно. Яка функція винагороди за те, що добре в математиці?


Наскільки швидкий метод конвергенції - інша справа, і це може залежати від кривої. , ну звичайно. Я намагався зрозуміти, як крива впливає на навчання (і не, якщо це відбувається, бо я вже знаю, що це робить).
Шахбаз
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.