Штучний інтелект q-learning

1

Яке співвідношення між методами Q-навчання та градієнтами політики?

Наскільки я розумію, Q-навчання та градієнти політики (PG) - це два основні підходи, що використовуються для вирішення проблем RL. У той час як Q-навчання має на меті передбачити винагороду за певну дію, здійснену в певному стані, градієнти політики безпосередньо передбачають саму дію. Однак обидва підходи здаються мені однаковими, тобто прогнозування …

21 reinforcement-learning q-learning policy-gradients comparison

1

Чому для DQN потрібні дві різні мережі?

Я проходив цю реалізацію DQN і бачу, що на лінії 124 і 125 ініціалізуються дві різні мережі Q. З мого розуміння, я думаю, що одна мережа прогнозує відповідні дії, а друга мережа прогнозує цільові значення Q для знаходження помилки Беллмана. Чому ми не можемо просто створити одну єдину мережу, яка …

12 reinforcement-learning q-learning dqn

2

Чому Q-навчання не збігається при використанні наближення функції?

Табличний алгоритм Q-навчання гарантовано знайде оптимальний QQQ функція, Q∗Q∗Q^*, за умови виконання наступних умов (умови Роббінса-Монро ) щодо рівня навчання ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty де αt(s,a)αt(s,a)\alpha_t(s, a) означає ступінь навчання, що використовується при оновленні QQQ значення, пов'язане зі станом sss і дії aaa на …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

Запитання з тегом «q-learning»