Вибір відповідного розміру міні-партії для стохастичного градієнтного спуску (SGD)


13

Чи є література, яка вивчає вибір розміру міні-партії при виконанні стохастичного градієнтного спуску? На мій досвід, це здається, що це емпіричний вибір, який зазвичай виявляється шляхом перехресної перевірки або з використанням різних правил.

Це гарна ідея повільно збільшувати розмір міні-партії, оскільки зменшується помилка перевірки? Які наслідки це матиме на помилку узагальнення? Невже я краще використовую надзвичайно маленьку міні-партію та оновлюю свою модель в сотні тисяч разів? Невже мені краще врівноважене число десь між надзвичайно малим та партійним?
Чи слід масштабувати розмір моєї міні-партії за розміром набору даних або передбачуваною кількістю функцій у наборі даних?

У мене, очевидно, виникає багато питань щодо впровадження схем навчання міні-пакетів. На жаль, більшість прочитаних робіт насправді не вказує, як вони обрали цей гіперпараметр. Я мав певний успіх у таких авторів, як Yann LeCun, особливо з колекції паперів Tricks of Trade. Однак я все ще не бачив ці питання повністю. Хтось має якісь рекомендації щодо паперів чи поради щодо того, які критерії я можу використовувати, щоб визначити хороші розміри міні-партії, намагаючись вивчити функції?


Здається, я не отримую багато звернень до цієї теми. Чи є кращий сайт для обміну стеками, щоб задавати питання машинного навчання або глибокого вивчення таких питань, як це?
Jason_L_Bens

Відповіді:


6

Теорія ефективності SGD була розроблена на одних прикладних оновленнях (тобто міні-партії розміром 1), тому використання великих міні-партій теоретично не є необхідним. Він має дві практичні переваги:

По-перше , якщо обчислення можна векторизувати, ви, можливо, зможете обчислити градієнти для невеликої міні-партії> 1 майже однаково швидко, що призведе до значного збільшення швидкості в тренуванні.

У цьому випадку оптимальний розмір міні-партії є функцією конкретного обладнання та реалізації, з якою ви працюєте, тому вам, мабуть, найкраще експериментувати, щоб знайти солодке місце.

По-друге , обчислення градієнта за розміром міні-партії> 1 призведе до більш точних градієнтів і більш оптимальних кроків. Але ця вигода швидко прийде і вирівняється, коли розмір міні-партії збільшиться за 1, так що ви можете зосередити увагу насамперед на першій меті.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.