Чи існує яка-небудь техніка на основі градієнта для пошуку абсолютного мінімуму (максимуму) функції у багатовимірному просторі?


11

Мені знайомий алгоритм спуску градієнта, який може знайти локальний мінімум (максимум) даної функції.

Чи є якась модифікація спуску градієнта, яка дозволяє знайти абсолютний мінімум (максимум), де функція має кілька локальних екстремумів?

Чи є якісь загальні методи, як посилити алгоритм, який може знайти локальний екстремум, для пошуку абсолютного екстремуму?


Ви можете перевірити перехресну перевірку чи пов'язані з питаннями інтелектуальної власності відповіді на поширені запитання .
Kaveh

Я думаю, що це один з недоліків градієнтного спуску - він може застрягнути в місцевій крайнощі. Інші методи, такі як імітація відпалу, можуть бути менш сприйнятливими до цього, але все ж не можуть дати гарантій, наскільки я розумію.
Джо

1
Я не впевнений, що з цим має "багатовимірний простір". навіть функція R може мати кілька локальних екстремумів, з якими градієнтний пошук матиме проблеми.
Суреш Венкат

Я впевнений, що існує теорема щодо того, що якщо функція буде безперервною і відібрана в достатній кількості точок, ви можете гарантувати, що спуск градієнта знайде глобальний мінімум, починаючи в якийсь момент. тобто щось по лінії алгоритму Пауелла. література настільки обширна, що така теорема, ймовірно, десь опублікована, але про неї не чули. це також доводить, що локальна оптимізація може наблизитись до глобальних оптимумів при достатній вибірці, оскільки вибірка зростає.
vzn

дещо пов’язані див. тут також коментарі, які твердо стверджують, що глобальні NN чи числові методи / евристичні типи підходів не є "алгоритмами наближення"
vzn

Відповіді:


17

Я припускаю, що ви говорите про необмежену мінімізацію. У вашому запитанні слід вказати, чи розглядаєте ви конкретну структуру проблеми. Інакше відповідь - ні.

Спершу я повинен розвіяти міф. Класичний метод градієнтного спуску (також його називають найбільш стрімким способом спуску ) навіть не гарантує пошук локального мінімізатора. Він зупиняється, коли знайшов критичну точку першого порядку, тобто ту, де градієнт зникає. Залежно від того, яка конкретна функція зведена до мінімуму і початкова точка, ви можете дуже добре опинитися в точці сідла або навіть у глобальному максималізаторі!

Розглянемо, наприклад, та початкову точку ( x 0 , y 0 ) : = ( 1 , 0 ) . Найбільш крутий напрямок спуску - f ( 1 , 0 ) = ( - 2 , 0 ) . Один крок методу з точним пошуком рядків залишає вас на рівні ( 0 , 0 )f(х,у)=х2-у2(х0,у0): =(1,0)-f(1,0)=(-2,0)(0,0)де градієнт зникає. На жаль, це сідло. Ви могли б зрозуміти, вивчивши умови оптимальності другого порядку. Але тепер уявіть, що функція . Тут ( 0 , 0 ) все ще є сідловим пунктом, але чисельно, умови другого порядку можуть вам не сказати. Загалом, скажімо, ви визначаєте, що гессіан 2 f ( x , y ) має власне значення, рівне - 10 -f(х,у)=х2-10-16у2(0,0)2f(х,у) . Як ти це читаєш? Це негативна кривизна чи числова помилка? Як щодо+ 10 - 16 ?-10-16+10-16

Розглянемо тепер таку функцію, як

f(х)={1якщо х0cos(х)якщо 0<х<π-1якщо хπ.

х0=-2

Зараз практично всі методи оптимізації на основі градієнтів страждають від цього дизайном. Ваше питання справді стосується глобальної оптимізації . Знову ж таки, відповідь «ні», немає загальних рецептів для модифікації методу, щоб гарантувати ідентифікацію глобального мінімізатора. Просто запитайте себе: якщо алгоритм повертає значення і каже, що це глобальний мінімізатор, як би ви перевірили, що це правда?

Існують класи методів глобальної оптимізації. Деякі вводять рандомізацію. Деякі використовують мультистартні стратегії. Деякі використовують структуру проблеми, але це для особливих випадків. Підберіть книгу про глобальну оптимізацію. Вам сподобається.


@ Роман: Дуже вітаю.
Домінік

3

Напевно, немає відповіді на один розмір на ваше запитання. Але ви можете розглянути алгоритми моделювання відпалу чи інші підходи, що спираються на методи методу Монте-Карло (MCMC) ланцюга Маркова. Вони також можуть поєднуватися з локальними методами, такими як спуск градієнта.


1

є багато посилань на тему "глобальна оптимізація нейронних мереж". методи подібні до імітованого відпалу [див. іншу відповідь]. основна ідея полягає в тому, щоб перезапустити мережевий градієнт спуску, починаючи з багатьох різних вихідних точок ваги, відбираючи вибірки випадковим чином або систематично. кожен результат схилу градієнта потім схожий на "зразок". чим більше відібраних проб, тим більша ймовірність того, що один із зразків є глобальним оптимумом, особливо якщо цільова функція "добре поводиться" у розумінні безперервного, диференційованого та іншого.

он-лайн реф

[1] Глобальна оптимізація ваг нейронної мережі Hamm et al

[2] Глобальний оптимізаційний підхід до навчання нейронних мереж Voglis / Lagaris

[3] Калібрування штучних нейронних мереж за допомогою глобальної оптимізації Пінтера

[4] Глобальна оптимізація нейронних мереж з використанням детермінованого гібридного підходу Белякова

[5] Глобальна оптимізація тренувань нейронної мережі Shang / Wah


1

Взагалі обчислювально важко оптимізувати багатоваріантні невипуклі функції. Твердість буває різних ароматів (криптографічна, NP-тверда). Одним із способів бачити це є те, що моделі сумішей (наприклад, суміш гаазійців або HMM) важко вивчити, але було б легко (*), якби вдалося ефективно збільшити ймовірність. Для отримання результатів щодо твердості навчання HMM див. Http://alex.smola.org/journalclub/AbeWar92.pdf http://link.springer.com/chapter/10.1007%2F3-540-45678-3_36 http: // www.math.ru.nl/~terwijn/publications/icgiFinal.pdf

(*) модулюють звичайні умови невиродженості та ідентифікації


0

я повинен не погодитися з Домініком. Хайек показав, що в середині 1980-х років відпалення невипуклої проблеми за певних суворих умов гарантовано досягає глобального мінімуму: http://dx.doi.org/10.1287/moor.13.2.311


2
Зважаючи на згадані вище результати твердості, ці умови справді повинні бути досить суворими!
Ар'є
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.