Чи є правила вибору розміру міні-партії?

При тренуванні нейронних мереж один гіперпараметр має розмір міні-партії. Поширені варіанти - 32, 64 та 128 елементів на міні-партію.

Чи є якісь правила / настанови, якою має бути міні-партія? Будь-які публікації, які досліджують вплив на навчання?

— Мартін Тома
джерело

За винятком вміщення в пам'яті?

— Ехсан М. Кермані

Так. Наприклад, чи є якась публікація з написом "чим більший розмір партії, тим краще" (доки вона вписується в пам'ять)?

— Мартін Тома

@ EhsanM.Kermani Я думаю, що це має значення. Я зробив декілька пробіжок на CIFAR-100, і я отримую різні результати залежно від розміру партії (з ранньою зупинкою, так що сподівання, сподіваємось, не є проблемою)

— Мартін Тома,

Більші обчислюються швидше (ефективніше), менші швидше сходяться, краще узагальнюються; пор. Ефективне міні-серійне навчання для стохастичної оптимізації та це RNN-дослідження . Є солодке місце, яке ви знайдете емпірично для своєї проблеми.

— Емре

Цей найпроникливіший документ Блей та ін. Щойно вийшов: Стохастичне сходження градієнта як приблизний байєсівський висновок

— Емре

У « Великій серійній підготовці до глибокого навчання: узагальнення узагальнення та різкі мінімуми» є кілька заперечних тверджень:

На практиці було помічено, що при використанні більшої партії спостерігається погіршення якості моделі, що вимірюється її здатністю до узагальнення [...]

широкомасштабні методи, як правило, сходяться до різких мінімізаторів функцій навчання та тестування, і, як відомо, різкі мінімуми призводять до біднішого узагальнення. н. На противагу цьому, дрібно-серійні методи послідовно сходяться до плоских мінімізаторів, і наші експерименти підтримують загальноприйняту думку, що це пов'язано з властивим шумом оцінки градієнта.

З моєї магістерської роботи : Отже, вибір розміру міні-партії впливає:

Час навчання до конвергенції . Здається, що це приємне місце. Якщо розмір партії дуже малий (наприклад, 8), цей час збільшується. Якщо розмір партії величезний, він також перевищує мінімальний.
Час навчання за одну епоху : Більший обчислюється швидше (є ефективним)
Результатна якість моделі : чим нижча, тим краща за рахунок кращого узагальнення (?)

Важливо відзначити взаємодію гіперпараметрів : розмір партії може взаємодіяти з іншими гіперпараметрами, особливо, швидкістю навчання. У деяких експериментах ця взаємодія може ускладнити виокремлення впливу розміру партії на якість моделі. Ще одна сильна взаємодія полягає в ранній зупинці регуляризації.

Дивись також

— Мартін Тома
джерело

@NeilSlater Ви хочете додати свій коментар до моєї відповіді (тепер вікі спільноти)?

— Мартін Тома

Мені подобається відповідь як загальна. Більше того, я би вдячний, що у конкретному прикладі є ряд відомостей про дуже маленькі , величезні та міні-партії .

— Тож S

Міні-пакет @SoS - це лише термін. "Міні" не стосується конкретного розміру, але це означає лише, що є більше ніж 1 приклад і менше загального навчального набору. Я вважаю "дуже маленьким" значення <= 8 (я щойно відредагував відповідь). Я також виміряв надзвичайне (більше ніж в 5 разів) збільшення настінного часу тренувань для цього. Звичайна - це щось на зразок 64 або 128. Я не надто впевнений, що таке «величезний»; Я думаю, це може залежати від обладнання.

— Мартін Тома

Ця відповідь задає більше запитань, ніж відповідає. Де це солодке пляма (можливо, допоможе графік)? Як це взаємодіє зі швидкістю навчання та ранньою зупинкою?

— xjcl

Відповідь залежить від мережі та набору даних. Отже, не має сенсу вказувати конкретні цифри, а значить, графік не допоможе. Про взаємодію з іншими гіперпараметрами: я точно не знаю. Спробуйте і опублікуйте свої результати :-)

— Мартін Тома