Причина градієнта в Інтернеті корисна в великих масштабах. У будь-якому випадку, зараз є бібліотеки, які реалізують його, тому не потрібно програмувати його. Це хороший спосіб дізнатися, як все працює.
Масштабне машинне навчання вперше підходило як інженерна проблема. Наприклад, для використання більшого навчального набору ми можемо використовувати паралельний комп'ютер для запуску відомого алгоритму машинного навчання або адаптувати більш досконалі чисельні методи для оптимізації відомої функції машинного навчання. Такі підходи покладаються на привабливе припущення, що можна роз'єднати статистичні аспекти від обчислювальних аспектів проблеми машинного навчання.
Ця робота показує, що це припущення є невірним, і що відмовитися від нього призводить до значно ефективніших алгоритмів навчання. Нова теоретична база враховує вплив наближеної оптимізації на алгоритми навчання.
Аналіз показує чіткі компроміси у випадку дрібних та масштабних проблем навчання. Маломасштабні проблеми навчання підлягають звичайному компромісу наближення – оцінка. Масштабні проблеми навчання підлягають якісно різній компромісі, що включає обчислювальну складність основних алгоритмів оптимізації нетривіальними способами. Наприклад, алгоритми стохастичного зменшення градієнта (SGD), як видається, є посередними алгоритмами оптимізації, проте, як показано, вони дуже добре справляються з масштабними проблемами навчання.