Спуск градієнта ванілі можна зробити більш надійним за допомогою пошуку ліній; Я написав алгоритми, які роблять це, і це робить дуже стабільний алгоритм (хоча і не обов'язково швидкий).
Однак займатися пошуком рядків методів стохастичного градієнта майже не має сенсу . Причиною цього я є те, що якщо ми здійснюємо пошук рядків на основі мінімізації функції повної втрати, ми негайно втратили одну з основних мотивацій для стохастичних методів; Тепер нам потрібно обчислити функцію повної втрати для кожного оновлення, яка, як правило, має обчислювальну вартість, порівнянну з обчисленням повної першої похідної. Зважаючи на те, що ми хотіли уникнути обчислення повного градієнта через обчислювальні витрати, здається, дуже малоймовірно, що ми хочемо гаразд з обчисленням функції повної втрати.
−∞∞
EDIT
@DeltaIV вказує, що це стосується і міні-партії, а не лише окремих зразків.