Чи є правила вибору розміру міні-партії?


21

При тренуванні нейронних мереж один гіперпараметр має розмір міні-партії. Поширені варіанти - 32, 64 та 128 елементів на міні-партію.

Чи є якісь правила / настанови, якою має бути міні-партія? Будь-які публікації, які досліджують вплив на навчання?


За винятком вміщення в пам'яті?
Ехсан М. Кермані

Так. Наприклад, чи є якась публікація з написом "чим більший розмір партії, тим краще" (доки вона вписується в пам'ять)?
Мартін Тома

@ EhsanM.Kermani Я думаю, що це має значення. Я зробив декілька пробіжок на CIFAR-100, і я отримую різні результати залежно від розміру партії (з ранньою зупинкою, так що сподівання, сподіваємось, не є проблемою)
Мартін Тома,

3
Більші обчислюються швидше (ефективніше), менші швидше сходяться, краще узагальнюються; пор. Ефективне міні-серійне навчання для стохастичної оптимізації та це RNN-дослідження . Є солодке місце, яке ви знайдете емпірично для своєї проблеми.
Емре

2
Цей найпроникливіший документ Блей та ін. Щойно вийшов: Стохастичне сходження градієнта як приблизний байєсівський висновок
Емре

Відповіді:


22

У « Великій серійній підготовці до глибокого навчання: узагальнення узагальнення та різкі мінімуми» є кілька заперечних тверджень:

На практиці було помічено, що при використанні більшої партії спостерігається погіршення якості моделі, що вимірюється її здатністю до узагальнення [...]

широкомасштабні методи, як правило, сходяться до різких мінімізаторів функцій навчання та тестування, і, як відомо, різкі мінімуми призводять до біднішого узагальнення. н. На противагу цьому, дрібно-серійні методи послідовно сходяться до плоских мінімізаторів, і наші експерименти підтримують загальноприйняту думку, що це пов'язано з властивим шумом оцінки градієнта.

З моєї магістерської роботи : Отже, вибір розміру міні-партії впливає:

  • Час навчання до конвергенції . Здається, що це приємне місце. Якщо розмір партії дуже малий (наприклад, 8), цей час збільшується. Якщо розмір партії величезний, він також перевищує мінімальний.
  • Час навчання за одну епоху : Більший обчислюється швидше (є ефективним)
  • Результатна якість моделі : чим нижча, тим краща за рахунок кращого узагальнення (?)

Важливо відзначити взаємодію гіперпараметрів : розмір партії може взаємодіяти з іншими гіперпараметрами, особливо, швидкістю навчання. У деяких експериментах ця взаємодія може ускладнити виокремлення впливу розміру партії на якість моделі. Ще одна сильна взаємодія полягає в ранній зупинці регуляризації.

Дивись також


@NeilSlater Ви хочете додати свій коментар до моєї відповіді (тепер вікі спільноти)?
Мартін Тома

Мені подобається відповідь як загальна. Більше того, я би вдячний, що у конкретному прикладі є ряд відомостей про дуже маленькі , величезні та міні-партії .
Тож S

Міні-пакет @SoS - це лише термін. "Міні" не стосується конкретного розміру, але це означає лише, що є більше ніж 1 приклад і менше загального навчального набору. Я вважаю "дуже маленьким" значення <= 8 (я щойно відредагував відповідь). Я також виміряв надзвичайне (більше ніж в 5 разів) збільшення настінного часу тренувань для цього. Звичайна - це щось на зразок 64 або 128. Я не надто впевнений, що таке «величезний»; Я думаю, це може залежати від обладнання.
Мартін Тома

Ця відповідь задає більше запитань, ніж відповідає. Де це солодке пляма (можливо, допоможе графік)? Як це взаємодіє зі швидкістю навчання та ранньою зупинкою?
xjcl

Відповідь залежить від мережі та набору даних. Отже, не має сенсу вказувати конкретні цифри, а значить, графік не допоможе. Про взаємодію з іншими гіперпараметрами: я точно не знаю. Спробуйте і опублікуйте свої результати :-)
Мартін Тома
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.