Наскільки ефективно Q-навчання за допомогою нейронних мереж, коли є одна вихідна одиниця на дію?


9

Передумови:
Я використовую наближення значення нейронної мережі у своєму навчальному завданні з посиленням. Підхід точно такий, як описаний у цьому питанні , однак сам питання інший.

У цьому підході кількість результатів - це кількість дій, які ми можемо вжити. Простими словами, алгоритм наступний: виконайте дію A, досліджуйте нагороду, попросіть NN передбачити значення Q для всіх можливих дій, виберіть максимальне значення Q, обчисліть Q для конкретної дії A як R + max(new_state_Q). Встановити модель на передбачувані значення Q лише з одним із них замінено на R + max(new_state_Q).

Питання: Наскільки ефективний такий підхід, якщо кількість результатів велика?

Спроба: Скажімо, ми можемо вжити 10 дій. На кожному кроці ми просимо модель передбачити 10 значень, в ранньому віці моделі це прогнозування є загальним безладом. Потім ми модифікуємо 1 значення виводу і підходимо модель до цих значень.

У мене є дві протилежні думки щодо того, наскільки хороший \ поганий такий підхід, і я не можу визначити, який з них правильний:

  • З однієї точки зору, ми тренуємо кожен нейрон 9 разів на випадкових даних і лише один раз на даних, близьких до реального значення. Якщо NN передбачив 5 для дії A у стані S, але реальне значення дорівнює -100, ми підходимо NN 9 разів зі значенням 5, а потім один раз зі значенням -100. Звучить божевільно.
  • З іншого погляду, вивчення нейронної мережі реалізується як зворотне поширення помилки , тому коли модель передбачила 5, а ми навчаємо її на 5, вона не дізнається нічого нового, оскільки помилка 0. Ваги не торкаються . І лише коли ми порахуємо -100 і прилаштуємо його до моделі, це зробить перерахунок ваги.

Який варіант підходить? Можливо, є ще щось, чого я не беру до уваги?

ОНОВЛЕННЯ: Під "наскільки ефективно" я маю на увазі порівняння підходу з одним результатом - передбачувана винагорода. Звичайно, дія буде частиною входу в цьому випадку. Таким чином, підхід №1 передбачає передбачення для всіх дій, заснованих на певному стані, підхід №2 передбачає конкретні дії, вжиті в певному стані.


Це питання важко дати остаточну відповідь на це питання в його нинішньому вигляді: "наскільки ефективний такий підхід?" Ну, це залежить ... порівняно з чим? Який альтернативний підхід ви б запропонували, що може бути, а може бути і не більш ефективним?
Денніс Сомерс

Привіт @DennisSoemers. Дякуємо за запитання Я оновив свою публікацію. В основному, альтернативний підхід має один вихід - винагороду. І додаткові N входів для всіх можливих дій. Основний підхід - INPUT (штат) та вихідний (N нагород за N дій). Альтернатива - I (стан + дія) та O (винагорода).
Сергій

Відповіді:


1

Тож два варіанти, які ми хочемо порівняти:

  1. Входи = представлення стану, вихід = 1 вузол на дію
  2. Входи = представлення стану + однокольорове кодування дій, вихід = 1 вузол

Ідучи за власною інтуїцією, я сумніваюся, що між цими двома варіантами є значна різниця у силі подання чи швидкості навчання (з точки зору ітерацій).

Для подання потужності перший варіант дає дещо меншу мережу біля входів, а також "ширшу" мережу біля виходів. Якщо з будь-якої причини було б корисно мати більше ваг, наприклад, біля вхідних вузлів, то цього можна було б значно досягти, зробивши перший прихований шар (близько до входів) трохи більшим.

Що стосується швидкості навчання, то, здається, ви маєте занепокоєння, як правило, лише точний сигнал навчання для одного з результатів, а не для інших. Що стосується другого варіанту, то саме те саме можна сказати і для ваг, підключених до вхідних вузлів, тому я сумніваюся, що тут є значна різниця.

Як я вже згадував, все вищезазначене ґрунтується саме на моїй інтуїції, але було б цікаво побачити на цьому більш достовірні посилання.

Одним з важливих переваг, який я бачу для першого варіанту, є обчислювальна швидкість; припустимо, ви хочете обчислити для всіх дій, щоб вирішити, яку дію вибрати; один форвард, що проходить через мережу, даючи вам всі одразу, буде набагато ефективнішим у обчисленні, ніж мати окремих передових переходів (для набору дій розміром ).QQnn

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.