1
Чому для DQN потрібні дві різні мережі?
Я проходив цю реалізацію DQN і бачу, що на лінії 124 і 125 ініціалізуються дві різні мережі Q. З мого розуміння, я думаю, що одна мережа прогнозує відповідні дії, а друга мережа прогнозує цільові значення Q для знаходження помилки Беллмана. Чому ми не можемо просто створити одну єдину мережу, яка …