Стохастичному градієнтному спуску передує стохастичне наближення, як вперше описано Роббінсом та Монро у своїй роботі «Метод стохастичного наближення» . Кіфер та Вольфовіц згодом опублікували свою працю « Стохастична оцінка максимуму функції регресії»що більше впізнається людям, знайомим з ML-варіантом стохастичного наближення (тобто стохастичним градієнтним походженням), як вказував Марк Стоун у коментарях. 60-ті роки провели безліч досліджень по цій вені - Дворецькі, Пауелл, Блюм - всі опубліковані результати, які ми сьогодні приймаємо як належне. Це порівняно незначний стрибок - перейти від методу Роббінса і Монро до методу Кіфера Вольфовіца, і просто переосмислити проблему, щоб потім дістатися до стохастичного градієнтного узвозу (для проблем регресії). Вищенаведені документи широко цитуються як допоміжні засоби стохастичного градієнтного походження, про що згадує Носедал, Ботту та Кертіс у цьому оглядовому документі , що дає коротку історичну перспективу з точки зору машинного навчання.
Я вважаю, що Кушнер та Інь у своїй книзі « Стохастичне наближення та рекурсивні алгоритми та програми» говорять про те, що це поняття використовувалося в теорії управління ще в 40-х роках, але я не пам'ятаю, чи були в них цитати чи це було анекдотичні, і я не маю доступу до їхньої книги, щоб підтвердити це.
Герберт Роббінс та Саттон Монро Метод стохастичного наближення
«Анали математичної статистики», Vol. 22, № 3. (вересень, 1951), стор 400-407.
Дж. Кійфер та Дж. Вулфовіц Стохастична оцінка максимуму функції регресії Енн. Математика. Статист. Том 23, № 3 (1952), 462-466
Леон Ботто, Френк Е. Кертіс та Хорхе Ноцедальні методи оптимізації для широкомасштабного машинного навчання , Технічний звіт, arXiv: 1606.04838