Чи є література, яка вивчає вибір розміру міні-партії при виконанні стохастичного градієнтного спуску? На мій досвід, це здається, що це емпіричний вибір, який зазвичай виявляється шляхом перехресної перевірки або з використанням різних правил.
Це гарна ідея повільно збільшувати розмір міні-партії, оскільки зменшується помилка перевірки? Які наслідки це матиме на помилку узагальнення? Невже я краще використовую надзвичайно маленьку міні-партію та оновлюю свою модель в сотні тисяч разів? Невже мені краще врівноважене число десь між надзвичайно малим та партійним?
Чи слід масштабувати розмір моєї міні-партії за розміром набору даних або передбачуваною кількістю функцій у наборі даних?
У мене, очевидно, виникає багато питань щодо впровадження схем навчання міні-пакетів. На жаль, більшість прочитаних робіт насправді не вказує, як вони обрали цей гіперпараметр. Я мав певний успіх у таких авторів, як Yann LeCun, особливо з колекції паперів Tricks of Trade. Однак я все ще не бачив ці питання повністю. Хтось має якісь рекомендації щодо паперів чи поради щодо того, які критерії я можу використовувати, щоб визначити хороші розміри міні-партії, намагаючись вивчити функції?