Чому навчання з глибокого підкріплення нестабільне?


13

У статті DeepMind за 2015 рік про глибоке підкріплення навчання йдеться про те, що "попередні спроби поєднати RL з нейронними мережами значною мірою зазнали невдачі через нестабільне навчання". Потім у статті перераховані деякі причини цього на основі співвідношень спостережень.

Скажіть, будь ласка, хтось пояснить, що це означає? Це форма надмірного пристосування, коли нейронна мережа вивчає певну структуру, яка присутня у навчанні, але може не бути присутнім на тестуванні? Або це означає щось інше?


Папір можна знайти: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

І розділ, який я намагаюся зрозуміти:

Відомо, що навчання зміцненню є нестабільним або навіть розходяться, коли нелінійний аппроксиматор функції, такий як нейронна мережа, використовується для подання функції значення (також відомий як Q). Ця нестабільність має кілька причин: кореляції, наявні в послідовності спостережень, те, що невеликі оновлення Q можуть суттєво змінити політику і, отже, змінити розподіл даних, а також співвідношення між значеннями дій та цільовими значеннями.

Ці нестабільності ми вирішуємо з новим варіантом Q-навчання, який використовує дві ключові ідеї. По-перше, ми використовували біологічно натхненний механізм, який називають переглядом досвіду, який рандомізує дані, тим самим видаляючи кореляції в послідовності спостереження і згладжуючи зміни в розподілі даних. По-друге, ми використовували ітераційне оновлення, яке коригує значення дій (Q) на цільові значення, які лише періодично оновлюються, тим самим зменшуючи кореляцію з цільовою.


Щоб переконатися, що ви тренуєте свого агента некорельованим даним, не слід оновлювати пам’ять агента на кожному кроці, фіксуйте сховище, щоб зробити декорреляцію даних.
narjes karmani

Відповіді:


11

Основна проблема полягає в тому, що, як і в багатьох інших сферах, DNN може бути важко тренуватися. Тут одна проблема полягає у співвідношенні вхідних даних: якщо ви думаєте про відеоігри (вони фактично використовують ті, щоб перевірити свої алгоритми), ви можете уявити, що скріншоти, зроблені один за іншим, сильно корелюються: гра розвивається "безперервно". Це для NN може бути проблемою: виконання багатьох ітерацій градієнтного спуску на подібні та співвіднесені входи може призвести до їх надмірного вживання та / або падіння до локального мінімуму. Ось чому вони використовують досвід повторного відтворення: вони зберігають серію "знімків" гри, потім перемішують їх та вибирають кілька кроків пізніше, щоб пройти тренування. Таким чином, дані більше не співвідносяться. Потім вони помічають, як під час тренінгу значення Q (прогнозовані NN) можуть змінювати політику, що триває,


Під "перетасованими" даними ви маєте на увазі випадкові позачергові переживання, відібрані в міні-партії? Як це відповідає "зниженій майбутній винагороді", яка, мабуть, передбачає переслідування в послідовності?
isobretatel
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.