Ключова перевага використання minibatch на відміну від повного набору даних сягає основної ідеї стохастичного градієнтного спуску 1 .
Під час спуску градієнта партії ви обчислюєте градієнт по всьому набору даних, усереднюючи потенційно величезну кількість інформації. Для цього потрібно багато пам'яті. Але справжній гандикап - це траєкторія партійного градієнта, яка приземлює вас у поганому місці (точка сідла).
У чистому SGD, з іншого боку, ви оновлюєте свої параметри, додаючи (знак мінус) градієнт, обчислений на одному екземплярі набору даних. Оскільки він заснований на одній випадковій точці даних, це дуже шумно і може зайти в напрямку, далекому від градієнта партії. Однак шум - це саме те, що ви хочете в невипуклій оптимізації, оскільки це допомагає вам уникнути місця сідла або локальних мінімумів (теорема 6 в [2]). Недоліком є те, що він надзвичайно неефективний, і вам потрібно багато разів перебирати весь набір даних, щоб знайти гарне рішення.
Методологія міні-партії - це компроміс, який вводить достатньо шуму для кожного оновлення градієнта, досягаючи при цьому відносної швидкої конвергенції.
1 Bottou, L. (2010). Масштабне машинне навчання зі стохастичним градієнтом. У матеріалах COMPSTAT'2010 (с. 177-186). Physica-Verlag HD.
[2] Ge, R., Huang, F., Jin, C., & Yuan, Y. (2015, червень). Врятуючись від східних точок - онлайн-стохастичний градієнт для тензорного розкладання. В COLT (с. 797-842).
Редагувати:
Я щойно побачив цей коментар у фейсбуці Yann LeCun, який дає нову точку зору на це питання (вибачте, не знаю, як зв’язатись із fb.)
Тренування з великими міні-бомбами шкодить вашому здоров’ю. Що ще важливіше, це погано для вашої тестової помилки. Друзі не дозволяють друзям використовувати міні-партії, що перевищують 32. Поміркуймо: лише люди перейшли на розміри міні-партії, більші за один, починаючи з 2012 року, це тому, що графічні процесори неефективні для розмірів партії менше 32. Це жахлива причина. Це просто означає, що наше обладнання відстійне.
Він цитував цей документ, який нещодавно був опублікований в arXiv кілька днів тому (квітень 2018), який варто прочитати,
Домінік Майстер, Карло Луші, переглянувши невелику серійну підготовку для глибоких нейронних мереж , arXiv: 1804.07612v1
З реферату,
Хоча використання великих міні-партій збільшує доступний обчислювальний паралелізм, було показано, що невеликі серійні тренування забезпечують поліпшення продуктивності узагальнення ...
Найкращі показники отримані за розмірами міні-партії між m = 2 та m = 32, що суперечить останнім роботам, що виступають за використання мініатюрних розмірів у тисячах.