інваріантність масштабів для алгоритмів пошуку рядків і регіонів


11

У книзі Nocedal & Wright про числову оптимізацію в розділі 2.2 (стор. 27) є твердження: "Загалом кажучи, простіше зберегти інваріантність масштабів для алгоритмів пошуку ліній, ніж для алгоритмів довірчих регіонів". У цьому ж розділі вони розповідають про наявність нових змінних, які є масштабованими версіями оригінальних змінних, що може допомогти як у пошуку рядків, так і в області довіри. Інший підхід - попередня підготовка. Для методів регіону довіри попереднє обумовлення еквівалентно наявності еліптичних областей довіри і, таким чином, забезпечує інваріантність масштабу. Однак подібна інтуїція не зрозуміла для попереднього обумовлення пошуку рядків. Яким способом пошук рядків краще підходить для інваріантності масштабу? Чи є якісь практичні міркування?

Крім того, у мене є питання щодо попередньої підготовки методів довірчого регіону. Чи внаслідок сильно обумовленої проблеми, чи вдалий попередній кондиціонер зменшить кількість зовнішніх ітерацій Ньютона та внутрішніх ітерацій СГ або лише останні? Оскільки область довіри є еліпсоїдальною у первісному просторі, хороший попередній передумовник повинен призвести до еліпсоїда, який краще відповідає ландшафту. Я думаю, що це може зменшити кількість зовнішніх ітерацій Ньютона, змусивши алгоритм приймати кращі вказівки. Чи це правильно?

Відповіді:


2

Я припускаю, що може бути якась різниця між тим, як методи пошуку рядків та регіонів довіри обробляють масштабування, але я насправді не бачу, як це виходить на практиці, доки ми знаємо про масштабування. І, щоб бути зрозумілим, книга Ноцедала та Райт говорила про афінну шкалу. Нелінійне масштабування дещо складніше для кількісного визначення.

f:XRAL(X)J:XR

J(x)=f(Ax)J(x)=Af(Ax)2J(x)=A2f(Ax)A
A
2J(x)δx=J(x)
A2f(Ax)Aδx=Af(Ax)
Aδx=2f(Ax)1f(Ax)

Hδx=J(x)
H
Hδx=Af(Ax)
AH

ϕ

δx=ϕ(Af(Ax))
ϕϕϕA

2J(x)δx=J(x)
точно використовуючи CG. Це саме використання Steihaug-Toint в налаштуваннях регіону довіри (стор. 171 в Ноцедалі та Райт) або Newton-CG для пошуку ліній (стор. 169 у Ноцедалі та Райт). Вони працюють досить близько до того ж, і їх не хвилює афінне масштабування. Вони також не потребують зберігання гессіанців, потрібні лише продукти вектора гессі. Дійсно, ці алгоритми повинні бути робочими конями для більшості проблем, і їх не хвилює афінне масштабування.

Щодо передумов для проблеми довірчого регіону, я не думаю, що існує простий спосіб сказати apriori, чи збираєтесь ви покращити кількість загальних ітерацій оптимізації чи ні. Дійсно, наприкінці дня методи оптимізації працюють у двох режимах. У першому режимі ми занадто далекі від радіуса конвергенції методу Ньютона, тому ми глобалізуємось і просто змушуємо ітерації гарантувати, що мета знижується. Довіра-регіон - це один із способів. Шукати рядків - це інше. У другому режимі ми знаходимося в радіусі конвергенції методу Ньютона, тому ми намагаємося не з цим возитися і дозволяємо методу Ньютона робити свою роботу. Насправді ми можемо побачити це в доказі конвергенції таких речей, як методи довірчого регіону. Наприклад, подивіться на теорему 4.9 (с.93 у Ноцедалі та Райте). Дуже чітко вони заявляють, як область довіри стає неактивною. У цьому контексті яка корисність попереднього кондиціонера? Звичайно, коли ми знаходимося в радіусі конвергенції методу Ньютона, ми робимо набагато менше роботи, і кількість ітерацій СГ зменшується. Що відбувається, коли ми знаходимось поза цим радіусом? Це свого роду залежить. Якщо ми обчислимо повний крок Ньютона, то користь полягає в тому, що ми зробили менше роботи. Якщо ми рано відрізаємо наш крок через усічення від усіченої-CG, то наш напрямок буде в підпросторі Крилова

{PJ(x),(PH)(PJ(x)),,(PH)k(PJ(x))}
PH
{J(x),(H)(J(x)),,(H)k(J(x))}?

Це не означає, що у визначенні хорошого попереднього кондиціонера немає значення. Однак я не впевнений, як хтось визначає попередній передумови для сприяння оптимізації для точок, що не відповідають радіусу конвергенції методу Ньютона. Зазвичай ми розробляємо передумовник для кластеризації власних значень наближення Гессі, що є відчутною, вимірюваною метою.

tldr; Практично кажучи, існує більш широкий спектр способів методу пошуку рядків для генерування ітерату, ніж метод довіри регіону, тому можливо, є дивовижний спосіб впорядкувати афінне масштабування. Однак просто використовуйте неточний метод Ньютона, і це не має значення. Попередній кондиціонер впливає на ефективність алгоритму вдалині від радіусу конвергенції методу Ньютона, але важко підрахувати його кількість, тому просто спроектуйте попередній умова для кластеризації власних значень наближення Гессіасна.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.