Давайте подумаємо про наступні ситуації:
- Ви навчаєте робота грати в пінг-понг
- Ви навчаєте програму обчислення квадратного кореня
- Ви вчите математику дитині в школі
У таких ситуаціях (тобто під контролем навчання) та багатьох інших є спільне одне (серед інших): учень отримує винагороду за результатами своєї роботи.
Моє запитання: як повинна виглядати функція винагороди? Чи є "найкраща" відповідь, чи це залежить від ситуації? Якщо це залежить від ситуації, як визначити, яку функцію винагороди вибрати?
Наприклад, візьміть такі три функції нагородження:
- Функція
A
говорить:- нижче певного моменту, погано чи гірше - те саме: ви нічого не отримуєте
- є чітка різниця між майже добрим і ідеальним
- Функція
B
говорить:- ви отримуєте винагороду лінійно пропорційну вашій ефективності
- Функція
C
говорить:- якщо ваша продуктивність погана, це нормально, ви зробили все можливе: ви все одно отримаєте якусь нагороду
- різниці між ідеальним і майже хорошим не дуже
Інтуїтивно, я б подумав, A
що зробить робота дуже зосередженим і навчиться точної схеми, але став би дурним при роботі з подібними зразками, в той час як C
зробив би його більш пристосованим до зміни ціною втрати вдосконалення.
Можна також подумати про складніші функції, просто показати, але мало:
Отже, як можна знати, яку функцію вибрати? Є чи це відомо , яка поведінка буде виходити з (по крайней мере) основні A
, B
і C
функцій?
Побічне питання: чи це кардинально відрізнятиметься від роботів та людських дітей?
A
, робот міг стати надзвичайно хорошим у виконанні точного завдання, але жахливим у завданнях, схожих, але трохи інших. Це лише моє здогадування.
X
давали мені найкращий результат", навіть якщо це не зовсім коректно, дав би велике правило.