У статті DeepMind про Deep Q-Learning для відеоігор Atari ( тут ) вони використовують метод жадібного епсилону для дослідження під час тренувань. Це означає, що коли в тренінгу вибирається дія, вона вибирається як дія з найвищим значенням q, або випадкова дія. Вибір між цими двома є випадковим і ґрунтується на значенні epsilon, а epsilon підпалюється під час тренінгу таким чином, що спочатку робиться багато випадкових дій (розвідка), але в міру прогресування тренінгу робиться багато дій з максимальними значеннями q (експлуатація).
Потім, під час тестування, вони також використовують цей жадний епсілон метод, але з епсилоном за дуже низьким значенням, таким чином, що існує сильний ухил до експлуатації над розвідкою, що сприяє вибору дії з найвищим значенням q над випадковою дією. Однак випадкові дії все ще іноді вибираються (5% часу).
Мої запитання: Чому в даний момент взагалі необхідні розвідки, враховуючи, що навчання вже пройшло? Якщо система засвоїла оптимальну політику, то чому не можна завжди вибрати дію як ту, що має найвище значення q? Чи не слід проводити розвідку лише в навчанні, і тоді, коли оптимальна політика буде засвоєна, агент може просто неодноразово вибирати оптимальну дію?
Спасибі!