Коли я реалізував пристойний міні-градієнт градієнта, я просто усереднював градієнти всіх прикладів у навчальній партії. Однак я помітив, що зараз оптимальна швидкість навчання набагато вища, ніж для онлайн-градієнтів пристойних. Моя інтуїція полягає в тому, що це тому, що усереднений градієнт менш шумний, і тому він може дотримуватися швидше. Тож, можливо, також є сенс просто підсумувати градієнти партії. Ці значення в будь-якому випадку можуть бути позитивними та негативними.
Я знаю, що це просто постійний фактор, який можна збалансувати за допомогою курсу навчання. Але мені цікаво, яке саме визначення визначили вчені, щоб я міг відтворити результати робіт із нейронних мереж.
Чи зазвичай ділиться підсумовані градієнти партії на розмір партії?