Як працює L-BFGS?


15

Метою статті була оптимізація деяких параметрів шляхом максимальної регульованості вірогідності журналу. Потім вони обчислюють Часткові похідні. Потім автори згадують, що вони оптимізують рівняння за допомогою L-BFGS, стандартної квазі-ньютонівської процедури для оптимізації гладких функцій багатьох змінних (більше деталей).

Як це працює ?


3
Який папір? Посилання на папір Потрібен контекст. Розмістіть посилання на абревіатури, наприклад L- BFGS та пропишіть їх: L-BFGS = Алгоритм Бройдена – Флетчера – Голдфарба – Шенно (BFGS) з обмеженою пам’яттю
Карл

1
en.wikipedia.org/wiki/Limited-memory_BFGS Існує багато варіантів, які можуть сильно відрізнятися за можливостями та продуктивністю.
Марк Л. Стоун

привіт, дякую г-н Марк :) Я погляну. Доповідь cs.stanford.edu/people/jure/pubs/circles-tkdd14.pdf (оптимізація рівняння 6)
Абір

В основному мислите L-BFGS як спосіб знаходження (локального) мінімуму об'єктивної функції, використовуючи значення об'єктивних функцій та градієнт цільової функції. Цей рівень опису охоплює багато методів оптимізації, окрім L-BFGS. Детальніше про це можна прочитати у розділі 7.2 Springer.com/us/book/9780387303031 .
Марк Л. Стоун

1
BFGS - це спосіб спробувати отримати метод першого порядку, щоб імітувати метод другого порядку (ньютон) за допомогою методу
secant

Відповіді:


28

В основному мислите L-BFGS як спосіб знаходження (локального) мінімуму об'єктивної функції, використовуючи значення об'єктивних функцій та градієнт цільової функції. Цей рівень опису охоплює багато методів оптимізації, окрім L-BFGS. Детальніше про це ви можете прочитати у розділі 7.2 Ноцедала та Райт "Числова оптимізація, 2-е видання" http://www.springer.com/us/book/9780387303031 . Дуже коротке обговорення L-BFGS подано на https://en.wikipedia.org/wiki/Limited-memory_BFGS .

Метод першого порядку означає, що використовуються градієнти (перші похідні) (і, можливо, значення об'єктивної функції), але не Гессіан (другі похідні). Подумайте, наприклад, про градієнтному спуску та найкрутішому спуску серед багатьох інших.

Метод другого порядку означає, що використовуються градієнти та Гессіан (і, можливо, значення об'єктивних функцій). Методи другого порядку можуть бути засновані на

  1. "Точна" гессіанська матриця (або кінцеві відмінності градієнтів), в цьому випадку вони відомі як методи Ньютона або

  2. Методи Квазі-Ньютона, які наближають гессіана на основі відмінностей градієнтів за декількома ітераціями, накладаючи умову "сексанта" (Квазі-Ньютона). Існує багато різних методів Квазі-Ньютона, які оцінюють гессіана по-різному. Один з найпопулярніших - BFGS. Наближення Гессі BFGS може бути або засноване на повній історії градієнтів, і в цьому випадку воно називається BFGS, або може базуватися лише на останніх m градієнтах; у цьому випадку воно відоме як обмежена пам'ять BFGS, скорочено як L-BFGS. Перевага L-BFGS полягає в тому, що потрібно лише зберігати найновіші m градієнти, де m зазвичай становить приблизно від 10 до 20, що набагато менша вимога зберігання, ніж n * (n + 1) / 2 елементів, необхідних для зберігання повних (трикутник) оцінки Гессі, як це потрібно для BFGS, де n - розмір проблеми. На відміну від (повної) BFGS, оцінка гессі ніколи не формується і не зберігається в L-BFGS (хоча деякі реалізації BFGS лише формують та оновлюють коефіцієнт Чольського наближення Гессі, а не саме наближення Гессі); скоріше, розрахунки, які були б необхідні при оцінці гессі, здійснюються без явного формування. L-BFGS використовується замість BFGS для дуже великих проблем (коли n дуже великий), але може не працювати так добре, як BFGS. Тому BFGS є кращим перед L-BFGS, коли можуть бути задоволені потреби в пам'яті BFGS. З іншого боку, L-BFGS не може бути набагато гіршим за продуктивність, ніж BFGS. оцінка Гессі ніколи не формується і не зберігається в L-BFGS (хоча деякі реалізації BFGS лише формують та оновлюють коефіцієнт Чольського наближення Гессі, а не саме наближення Гессі); скоріше, розрахунки, які були б необхідні при оцінці гессі, здійснюються без явного формування. L-BFGS використовується замість BFGS для дуже великих проблем (коли n дуже великий), але може не працювати так добре, як BFGS. Тому BFGS є кращим перед L-BFGS, коли можуть бути задоволені потреби в пам'яті BFGS. З іншого боку, L-BFGS не може бути набагато гіршим за продуктивність, ніж BFGS. оцінка Гессі ніколи не формується і не зберігається в L-BFGS (хоча деякі реалізації BFGS лише формують та оновлюють коефіцієнт Чольського наближення Гессі, а не саме наближення Гессі); скоріше, розрахунки, які були б необхідні при оцінці гессі, здійснюються без явного формування. L-BFGS використовується замість BFGS для дуже великих проблем (коли n дуже великий), але може не працювати так добре, як BFGS. Тому BFGS є кращим перед L-BFGS, коли можуть бути задоволені потреби в пам'яті BFGS. З іншого боку, L-BFGS не може бути набагато гіршим за продуктивність, ніж BFGS. розрахунки, які були б необхідні при оцінці гессі, виконуються без явного формування. L-BFGS використовується замість BFGS для дуже великих проблем (коли n дуже великий), але може не працювати так добре, як BFGS. Тому BFGS є кращим перед L-BFGS, коли можуть бути задоволені потреби в пам'яті BFGS. З іншого боку, L-BFGS не може бути набагато гіршим за продуктивність, ніж BFGS. розрахунки, які були б необхідні при оцінці гессі, виконуються без явного формування. L-BFGS використовується замість BFGS для дуже великих проблем (коли n дуже великий), але може не працювати так добре, як BFGS. Тому BFGS є кращим перед L-BFGS, коли можуть бути задоволені потреби в пам'яті BFGS. З іншого боку, L-BFGS не може бути набагато гіршим за продуктивність, ніж BFGS.

Навіть на такому рівні опису є багато варіантів. Наприклад, методи можуть бути абсолютно незахищеними, і в цьому випадку все відбувається, і вони можуть не сходитися ні до чого, навіть із опуклими проблемами. Або їх можна захистити. Захищені методи, як правило, засновані на регіонах довіри або пошуку рядків і мають на меті забезпечити конвергенцію до чогось. Дуже важливо, що лише знаючи, що метод є L-BFGS, саме по собі не говорить про те, який тип захисту, якщо такий є, використовується. Це як би сказати, що автомобіль - це 4-дверний седан - але, звичайно, не всі 4-дверні седани однакові за роботою або надійністю. Це лише один атрибут алгоритму оптимізації.


1
Привіт марку, мені знову потрібна ваша допомога, чи не могли б ви мені коротко сказати різницю між методами Ньютона та квазі-Ньютона ?? дякую
Абір

3
Методи Ньютона обчислюють матрицю Гессі "з нуля" при кожній ітерації алгоритму, або точно, або за допомогою кінцевих відмінностей градієнта при цій ітерації. Квазі-Ньютонські методи будують апроксимацію матриці Гессі, використовуючи градієнтні відмінності в ітераціях. Існує багато різних способів цього, що спричиняє безліч різних методів Квазі-Ньютона, таких як BFGS, DFP, SR1 та інші. Зазвичай методи Ньютона вимагають великої кількості обчислень при кожній ітерації для обчислення гессіанських, набагато більше обчислень за ітерацію, ніж методи Квазі-Ньютона.
Марк Л. Стоун
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.