Сума або середнє значення градієнтів у (міні) градієнті партії пристойне?


15

Коли я реалізував пристойний міні-градієнт градієнта, я просто усереднював градієнти всіх прикладів у навчальній партії. Однак я помітив, що зараз оптимальна швидкість навчання набагато вища, ніж для онлайн-градієнтів пристойних. Моя інтуїція полягає в тому, що це тому, що усереднений градієнт менш шумний, і тому він може дотримуватися швидше. Тож, можливо, також є сенс просто підсумувати градієнти партії. Ці значення в будь-якому випадку можуть бути позитивними та негативними.

Я знаю, що це просто постійний фактор, який можна збалансувати за допомогою курсу навчання. Але мені цікаво, яке саме визначення визначили вчені, щоб я міг відтворити результати робіт із нейронних мереж.

Чи зазвичай ділиться підсумовані градієнти партії на розмір партії?

Відповіді:


21

Середній.

Приклади: Примітки до курсу машинного навчання Ендрю Нґ з Coursera, складеного Алексом Хоулхаузом.

Підсумовуючи градієнти за рахунок окремих зразків, ви отримуєте набагато більш плавний градієнт. Чим більше партія, тим більш гладкий отриманий градієнт, який використовується при оновленні ваги.

Ділення суми на величину партії та взяття середнього градієнта має ефект:

  1. Величина ваги не зростає пропорційно. Додавання регуляризації L2 до оновлення ваги карає великі значення ваги. Це часто призводить до поліпшення продуктивності узагальнення. Беручи середній показник, особливо якщо градієнти вказують в одному напрямку, не дозволяйте вагам занадто великим.
  2. Величина градієнта не залежить від розміру партії. Це дозволяє порівняти ваги з інших експериментів з використанням різних розмірів партії.
  3. Протиставлення ефекту розміру партії зі швидкістю навчання може бути чисельно еквівалентним, але в кінцевому підсумку ви отримаєте ступінь навчання, що залежить від впровадження. Складно повідомити результати та експериментальні налаштування, якщо люди не можуть відновити масштаб параметрів, які ви використовуєте, і у них виникнуть проблеми з відтворенням вашого експерименту.

Усереднення дозволяє чіткіше порівняти і зберігати градієнтні величини незалежно від розміру партії. Вибір розміру партії іноді обмежується наявними у вас обчислювальними ресурсами, і ви хочете пом’якшити ефект цього при оцінці вашої моделі.


Посилання тепер мертве
cdeterman

1
оновлене посилання, більше не може посилатися на оригінальні слайди, тому вибрав добре складені нотатки Алекса Хоулауза .
ypx

Цей урок , здається, йде для підсумовування замість середнього .. deeplearning.net/tutorial/gettingstarted.html#regularization
AD
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.