У статті DeepMind за 2015 рік про глибоке підкріплення навчання йдеться про те, що "попередні спроби поєднати RL з нейронними мережами значною мірою зазнали невдачі через нестабільне навчання". Потім у статті перераховані деякі причини цього на основі співвідношень спостережень.
Скажіть, будь ласка, хтось пояснить, що це означає? Це форма надмірного пристосування, коли нейронна мережа вивчає певну структуру, яка присутня у навчанні, але може не бути присутнім на тестуванні? Або це означає щось інше?
Папір можна знайти: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
І розділ, який я намагаюся зрозуміти:
Відомо, що навчання зміцненню є нестабільним або навіть розходяться, коли нелінійний аппроксиматор функції, такий як нейронна мережа, використовується для подання функції значення (також відомий як Q). Ця нестабільність має кілька причин: кореляції, наявні в послідовності спостережень, те, що невеликі оновлення Q можуть суттєво змінити політику і, отже, змінити розподіл даних, а також співвідношення між значеннями дій та цільовими значеннями.
Ці нестабільності ми вирішуємо з новим варіантом Q-навчання, який використовує дві ключові ідеї. По-перше, ми використовували біологічно натхненний механізм, який називають переглядом досвіду, який рандомізує дані, тим самим видаляючи кореляції в послідовності спостереження і згладжуючи зміни в розподілі даних. По-друге, ми використовували ітераційне оновлення, яке коригує значення дій (Q) на цільові значення, які лише періодично оновлюються, тим самим зменшуючи кореляцію з цільовою.