Оновлюючи ваги нейронної мережі за допомогою алгоритму зворотного розповсюдження з періодом імпульсу, чи слід застосовувати швидкість навчання і до терміну імпульсу?
Більшість інформації, яку я міг знайти про використання імпульсу, мають рівняння, виглядаючи приблизно так:
де - швидкість навчання, а - термін імпульсу.
якщо термін більше, ніж термін то в наступній ітерації від попередньої ітерації матиме більший вплив на вагу, ніж поточний.
Чи є це метою терміну імпульсу? чи має виглядати рівняння більше таким чином?
тобто. масштабування всього за ступенем навчання?