Ми можемо розбити проблему наступним чином:
< х0, у0, х1, у1>( х0- у0)2+ ( х1- у1)2------------------√
< х0, у0, х1, у1>
Звичайно, немає ніяких причин робити це в двох окремих нейронних мережах, тому ми можемо просто поєднати дві кінцеві в кінці моделі, що сприймають зображення як вхід, а відстань як вихід.
Ця модель повинна бути навчена на маркованих даних, однак вам потрібно буде або генерувати дані самостійно, або зображати етикетки.
Але якби ви хотіли, щоб воно засвоїло поняття про закриття відстані менш контрольованим способом, вам знадобиться використовувати підсилення. У цьому випадку вам доведеться налаштувати середовище, що стимулює агент зменшити відстань. Це може бути так само просто, як і отримати винагороду, якщо дія зменшить відстань.
Іншим підходом було б стимулювання агента за допомогою майбутньої винагороди. Тобто, винагорода приходить не просто від результатів наступного негайного стану, але також є внески наступного можливого стану, і наступного після цього, і так далі. Це ідея Deep Q-Learning, і я реалізую простий приклад (дуже подібний до того, що ви описуєте) у цьому зошиті .
Отже, тепер питання: чи реалізувала ця реалізація щось інше, ніж випадкове переміщення, поки не піде шлях до успіху?
У своєму прикладі ви говорите про винагороду агента, коли він приземлиться на ціль. Але в тому, що я описав, він отримав нагороду, рухаючись ближче до мети (або через Q-функцію, або безпосередньо з оточення). Це можна зробити, вивчивши деяке абстрактне уявлення про відстань (що можна проілюструвати у контрольованій версії).
Коли людина вчиться цьому, це з тієї ж точної причини: людина отримує нагороду за рух у цьому напрямку через відчуття майбутніх нагород.
Я б сказала, що, маючи достатню кількість навчальних занять і даних, навчальне підкріплення може засвоїти цю концепцію легко. Що стосується інших нагород, які є на дошці (наприклад, "мінімізуйте ентропію ради, а також намагайтеся отримати винагороду"), вам потрібно подумати про те, про що ви просите. Ви б хотіли, щоб агент мінімізував відстань або максимізував нагороду? Тому що, як правило, це не може зробити і те, і інше. Якщо ви шукаєте баланс між ними, ви дійсно просто визначаєте нагороду, щоб також враховувати відстань.