При тренуванні нейронних мереж один гіперпараметр має розмір міні-партії. Поширені варіанти - 32, 64 та 128 елементів на міні-партію.
Чи є якісь правила / настанови, якою має бути міні-партія? Будь-які публікації, які досліджують вплив на навчання?
При тренуванні нейронних мереж один гіперпараметр має розмір міні-партії. Поширені варіанти - 32, 64 та 128 елементів на міні-партію.
Чи є якісь правила / настанови, якою має бути міні-партія? Будь-які публікації, які досліджують вплив на навчання?
Відповіді:
У « Великій серійній підготовці до глибокого навчання: узагальнення узагальнення та різкі мінімуми» є кілька заперечних тверджень:
На практиці було помічено, що при використанні більшої партії спостерігається погіршення якості моделі, що вимірюється її здатністю до узагальнення [...]
широкомасштабні методи, як правило, сходяться до різких мінімізаторів функцій навчання та тестування, і, як відомо, різкі мінімуми призводять до біднішого узагальнення. н. На противагу цьому, дрібно-серійні методи послідовно сходяться до плоских мінімізаторів, і наші експерименти підтримують загальноприйняту думку, що це пов'язано з властивим шумом оцінки градієнта.
З моєї магістерської роботи : Отже, вибір розміру міні-партії впливає:
Важливо відзначити взаємодію гіперпараметрів : розмір партії може взаємодіяти з іншими гіперпараметрами, особливо, швидкістю навчання. У деяких експериментах ця взаємодія може ускладнити виокремлення впливу розміру партії на якість моделі. Ще одна сильна взаємодія полягає в ранній зупинці регуляризації.