Я бачив подібний висновок з багатьох дискусій, що в міру збільшення розміру міні-партії збіжність SGD насправді стає важчим / гіршим, наприклад, цей документ і ця відповідь . Також я чув, що люди на ранніх етапах використовують такі хитрощі, як невеликі темпи навчання або розмір партії, щоб вирішити цю складність при великих розмірах партії.
Однак це здається протиінтуїтивним, оскільки середню втрату міні-партії можна розглядати як наближення до очікуваної втрати внаслідок розподілу даних
Ось кілька моїх (ймовірно неправильних) думок, які намагаються пояснити.
Параметри моделі сильно залежать один від одного, коли партія стає занадто великою, це вплине на занадто багато параметрів одразу, так що важко для параметрів досягти стабільної властивої залежності? (як, наприклад, проблема внутрішнього коваріатного зсуву, згадана в документі про нормалізацію партії )
Або коли майже всі параметри відповідають за кожну ітерацію, вони прагнуть засвоїти надмірні неявні шаблони, отже, знижує ємність моделі? (Я маю на увазі скажімо, для проблем з класифікацією цифр деякі шаблони повинні відповідати за крапки, деякі за ребра, але коли це відбувається, кожен шаблон намагається відповідати за всі фігури).
Або це тому, що коли розмір партій наблизиться до масштабу тренувального набору, мініатюри вже не можуть розглядатися як іid від розподілу даних, оскільки велика ймовірність корельованих мініатюр?
Оновлення
Як було зазначено у відповіді Бенуа Санчеса, однією важливою причиною є те, що для великих міні-матчів потрібно більше обчислень, щоб виконати одне оновлення, і більшість аналізів використовують порівняльну кількість навчальних епох для порівняння.
Однак цей документ (Wilson and Martinez, 2003) показує, що більший розмір партії все ще є дещо невигідним, навіть з огляду на достатню кількість навчальних епох. Це взагалі так?