Чому ми не використовуємо непостійні показники навчання для гідного градієнта для речей, відмінних від нейронних мереж?


14

Література поглибленого вивчення повна розумних хитрощів із використанням непостійних темпів навчання в градієнтному узвозі. Такі речі, як експоненціальний розпад, RMSprop, Adagrad тощо, легко здійснити і доступні у кожному глибокому навчальному пакеті, проте вони, як видається, не існують поза нейронних мереж. Чи є для цього причина? Якщо люди просто не хвилюються, чи є причина, чому нам не доглядати за межами нейронних мереж?


2
Я думаю, що метод пошуку за напрямком чи метод довіри - це "непостійні" показники навчання.
Haitao Du

2
Існує безліч непостійних градієнтних методів, розроблених незалежно від NN. Барзілай-Борвейн Г.Д. і Нестеров Г.Д. - два визначні приклади.
Sycorax каже, що поверніть Моніку

@Sycorax, але чи фактично вони використовуються щодня за межами NN?
Тім

2
@Tim, я не можу сказати. Коли мені потрібно здійснити локальний пошук за межами NN, я маю розкіш використовувати методи другого порядку. Але я був із задоволенням дізнатися про більш швидкі методи GD на той випадок, що у мене в гарній кишені може бути милий трюк.
Sycorax каже, що повернеться до Моніки

1
Варто зазначити, що (на моє здивування) я натрапив на випадки, коли ГММ не використовують постійні курси навчання, дещо на подив людей. Особливим прикладом є впровадження DART на LightGBM. Хоча в оригінальних документах не використовується дедалі менший LR, фактична реалізація за замовчуванням.
usεr11852 повідомляє

Відповіді:


16

Відмова: У мене не так багато досвіду з оптимізацією за межами нейронних мереж, тому моя відповідь буде явно упереджена, але є кілька речей, які грають роль:

  • (Глибокі) нейронні мережі мають безліч параметрів . Це має кілька наслідків:

    По-перше, він на зразок виключає методи вищого порядку просто тому, що обчислення Гессіана та вищих похідних стає нездійсненним. В інших областях це може бути правильним підходом, кращим, ніж будь-яке змінення SGD.

    По-друге, хоча SGD чудовий , він, як правило, непрактично повільний. Ці вдосконалені варіанти SGD в основному дозволяють прискорити тренування, потенційно втрачаючи деякі приємні властивості SGD . В інших областях час навчання SGD може бути не вузьким місцем, тому поліпшення, отримане прискоренням його, може бути просто незначним.

  • Навчання (глибоких) нейронних мереж - це невипукла оптимізація, і я не знаю значних результатів опуклої релаксації на місцях. На відміну від інших полів, нейронні мережі не зосереджені на глобально оптимальних рішеннях, що призводить до вкладення більше зусиль у покращення властивостей поверхні втрат та її обходу під час оптимізації.

    В інших сферах використання опуклої релаксації та отримання глобально оптимальних рішень може бути в центрі інтересу замість алгоритму оптимізації, оскільки як тільки проблема буде визначена як опукла проблема, вибір алгоритму оптимізації не може покращити якість рішення .

Я вважаю, що ця відповідь не охоплює всіх можливих аспектів, і мені цікаво інших думок.


Отже, ви в основному говорите, що інші проблеми набагато простіші, тому не потрібні хитрощі, і ванільного SGD їм достатньо?
Тім

3
Це надто спрощує моє повідомлення. 1) деякі проблеми можуть використовувати методи вищого порядку, немає необхідності в адаптивному SGD. 2) деякі проблеми не можуть отримати користь від поліпшення SGD завдяки закону Амдала. 3) деякі проблеми можуть запропонувати опуклі рішення, і головна складність полягає у постановці їх як опуклих. Жоден із цих питань не говорить про те, що інші проблеми набагато простіші, ніж глибоке навчання, скоріше пояснює, чому поліпшення SGD не знаходиться в центрі їх уваги.
Ян Кукацька

Можливий пункт 4: якщо ви взяли якийсь інший метод і зробили його досить складним (високий розмірний, нелінійний, невипуклий), щоб отримати перевагу від складних методів градієнтного спуску, його, мабуть, можна назвати нейронною мережею.
Натаніел

1
@JanKukacka Я знаю, я шукав роз'яснення, оскільки ваша відповідь була непрямою
Тім
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.