Штучний інтелект dqn

Чому для DQN потрібні дві різні мережі?

Я проходив цю реалізацію DQN і бачу, що на лінії 124 і 125 ініціалізуються дві різні мережі Q. З мого розуміння, я думаю, що одна мережа прогнозує відповідні дії, а друга мережа прогнозує цільові значення Q для знаходження помилки Беллмана. Чому ми не можемо просто створити одну єдину мережу, яка …

12 reinforcement-learning q-learning dqn

Запитання з тегом «dqn»