Запитання з тегом «function-approximation»

2
Чому Q-навчання не збігається при використанні наближення функції?
Табличний алгоритм Q-навчання гарантовано знайде оптимальний QQQ функція, Q∗Q∗Q^*, за умови виконання наступних умов (умови Роббінса-Монро ) щодо рівня навчання ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty де αt(s,a)αt(s,a)\alpha_t(s, a) означає ступінь навчання, що використовується при оновленні QQQ значення, пов'язане зі станом sss і дії aaa на …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.