Теоретичне вивчення методів спуску координат


14

Я готував деякий навчальний матеріал з евристики для оптимізації і розглядав методи координатного спуску. Тут встановлено багатофакторну функцію f яку ви хочете оптимізувати. f має властивість, яка обмежена будь-якою єдиною змінною, її легко оптимізувати. Таким чином, координування спуску триває, проїжджаючи по координатах, фіксуючи все, крім обраного, і мінімізуючи уздовж цієї координати. Врешті-решт покращення сповільнюється, і ви припиняєте.

Моє запитання: чи є теоретичне вивчення методів спуску координат, яке говорить про коефіцієнти конвергенції та властивості які дозволяють методу добре працювати тощо? Очевидно, що я не чекаю повністю загальних відповідей, але відповіді, які висвітлюють випадки, коли евристика справді добре була б корисною.f

Убік: альтернативна методика оптимізації, що використовується для -мереж, може розглядатися як приклад спуску координат, і алгоритм Франка-Вулфа видається пов'язаним (але не є прямим прикладом рамки)k


Принаймні, як описано в статті kenclarkson.org/sga/p.pdf Кена Клакрсона , Франк-Вулф дуже схожий. Єдина відмінність, здається, полягає в тому, що в FW ви вибираєте найкращу координату для спуску. Він має ту саму властивість зрідженості, яку згадує matus.
Сашо Ніколов

2
Себастьян Бубек має нещодавню монографію про опуклу оптимізацію та складність ітерації для різних методів. Може бути корисним місцем для пошуку. blogs.princeton.edu/imabandit/2014/05/16/…
Чандра Чекурі

Відповіді:


24

(Редагувати примітки: я реорганізував це після того, як відлякав його довжину.)

Літературу про координатний спуск можна трохи відстежити. Ось деякі причини цього.

  1. Багато відомих властивостей методів координат відображено в теоремах парасольки для більш загальних методів спуску. Два приклади цього, наведені нижче, є швидкої збіжності при сильній опуклості (утримання для будь-якого градієнтного спуску), а загальна збіжність цих методів (зазвичай пов'язують з Zoutendijk).lp

  2. Іменування не є стандартним. Навіть термін "найкрутіший спуск" не є стандартним. У вас може бути успіх гуглінгу будь-якого з термінів "циклічний координатний спуск", "координатний спуск", "Гаусс-Сейдель", "Гаус-Саутуелл". використання не є послідовним.

  3. Циклічний варіант рідко отримує особливу згадку. Замість цього зазвичай обговорюється лише найкращий єдиний вибір координати. Але це майже завжди дає циклічну гарантію, хоча і з додатковим фактором (кількість змінних): це тому, що більшість аналізів конвергенції проходить шляхом нижчого обмеження вдосконалення на один крок, і ви можете ігнорувати додаткові координати. Також важко сказати що-небудь загальне про те, що циклічно купує тебе, тому люди просто роблять найкращу координацію, і n- фактор зазвичай може бути перевірений.nn

Швидкість при сильній опуклості. Найпростіший випадок - ваша цільова функція сильно опукла. Тут усі варіанти спуску градієнта мають швидкість . Це доведено в книзі Boyd & Vandenberghe. Доказ спочатку дає результат для градієнтного спуску, а потім використовує нормову еквівалентність, щоб дати результат для загального l p найвищого спуску.O(ln(1/ϵ))lp

Обмеження. Без сильної опуклості ви повинні почати бути трохи обережними. Ви нічого не сказали про обмеження, і, таким чином, загалом, мінімальне може бути недосяжним. Я коротко скажу на тему обмежень, що стандартний підхід (із методами спуску) полягає у проектуванні на ваш обмеження, встановленому кожну ітерацію, щоб підтримувати здійсненність, або використовувати бар'єри для перенесення обмежень у вашу цільову функцію. Що стосується колишнього, я не знаю, як це грає з координатним узвозом; у випадку останнього він прекрасно працює при координатному спуску, і ці бар'єри можуть бути сильно опуклими.

Більш конкретно, щоб координувати методи, а не проектувати, багато людей просто змушують оновлення координат підтримувати можливість: це, наприклад, саме з алгоритмом Франка-Вулфа та його варіантами (тобто, використовуючи його для розв’язання СДП).

Я також коротко зазначу, що алгоритм SMO для SVM можна розглядати як метод спуску координат, де ви оновлюєте відразу дві змінні та підтримуєте обмеження техніко-економічної спроможності під час цього. Вибір змінних є евристичним у цьому методі, і тому гарантії насправді є лише циклічними гарантіями. Я не впевнений, чи з’являється цей зв’язок у стандартній літературі; Я дізнався про метод SMO з курсових записок Ендрю Нґ і виявив їх досить чистими.

Загальна гарантія конвергенції. Те, що я знаю в цій більш загальній обстановці (для координатного спуску), є значно слабкішою. По-перше, існує давній результат, зумовлений Зутендійком, що всі ці варіанти градієнта гарантували конвергенцію; це можна знайти в книзі Nocedal & Wright, і це також з’являється в деяких книгах Берцекаса (принаймні, «нелінійне програмування»). Ці результати знову для чогось більш загального, ніж координатний спуск, але ви можете їх спеціалізувати для координації спуску, а потім отримати циклічну частину, помноживши на .n

O(ln(1/ϵ))

Є кілька останніх результатів координатного спуску, я бачив речі на arXiv. Крім того, у luo & tseng є кілька нових робіт. але це головний матеріал.

i=1mg(ai,λ)g(ai)1mλexp(1/ϵ2)O(1/ϵ)

Проблема з точними оновленнями. Крім того, дуже часто трапляється так, що у вас немає єдиного оновлення координат закритої форми. Або точне рішення може просто не існувати. Але, на щастя, існує багато і багато методів пошуку рядків, які отримують в основному ті ж гарантії, що і точне рішення. Цей матеріал можна знайти в стандартних текстах нелінійного програмування, наприклад, у згаданих вище книгах Берцекаса або Ноцедаля і Райт.

По відношенню до другого абзацу: коли вони добре працюють. По-перше, багато згаданих вище аналізів для градієнтної роботи для координатного спуску. То чому б не завжди використовувати координатний спуск? Відповідь полягає в тому, що для багатьох проблем, де застосовується спуск градієнта, ви також можете використовувати методи Ньютона, для яких можна довести вищу конвергенцію. Я не знаю способу отримати перевагу Ньютона за допомогою координатного спуску. Крім того, висока вартість методів Ньютона може бути зменшена за допомогою оновлень Quasinewton (див., Наприклад, LBFGS).

l0 sense). Of course, there are NP-hardness issues with this kind of sparsity, but the point is that if you run k iterations, you have k nonzero entries. These facts generalize to, say, using coordinate methods with SDP solvers, where each iteration you throw in a rank 1 matrix, thus with k iterations you have a rank k iterate. There is a great paper on this topic, by Shalev-Shwartz, Srebro, and Zhang, titled "trading accuracy for sparsity in optimization problems with sparsity constraints". Most specifically to the second paragraph of your question, this paper gives further properties on f that allow fast convergence and good sparsity (true to its title).


2
Ого. це справді вичерпна відповідь. Спасибі !
Суреш Венкат


2

We've just put up a paper on arXiv (http://arxiv.org/abs/1201.1214) that proves generic lower bounds for "statistical algorithms" for optimization problems, with each "problem" having its own lower bound depending on its various properties.

Coordinate descent (and pretty much anything else we can think of) can be seen as a statistical algorithm in our framework, so hopefully this paper has some results that will be of interest to you.


Класно. Поглянемо в це.
Суреш Венкат

2

Note that in optimization, "convergence rate" usually means asymptotic behavior. That is, the rate only applies to the neighborhood of optimal solutions. In that sense, Luo & Tseng did prove linear convergence rates for some non-strongly convex objective functions in the paper "On the convergence of the coordinate descent method for convex differentiable minimization".

Неасимптотична швидкість конвергенції, яка називається "складністю ітерації", як правило, більш корисна для обмеження ітераційних чисел алгоритмів мінімізації. Для сильно опуклих цільових функцій складність ітерації циклічних методів схилу координат вже показана в межах Помилки Луо і Ценга та аналізі конвергенції можливих методів спуску: загальний підхід, якщо використовується глобальна обмеження помилок. Для не сильно опуклих проблем ми маємо нові результати в ітераційній складності можливих методів спуску для опуклої оптимізації . Для конкретності ми показали складність ітерації для циклічних методів спуску координат у таких проблемах, як подвійна форма SVM та методи Гаусса-Сейделя. Крім того, результати охоплюють також інші можливі методи спуску, включаючи градієнтний спуск та друзів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.