Я припускаю, що може бути якась різниця між тим, як методи пошуку рядків та регіонів довіри обробляють масштабування, але я насправді не бачу, як це виходить на практиці, доки ми знаємо про масштабування. І, щоб бути зрозумілим, книга Ноцедала та Райт говорила про афінну шкалу. Нелінійне масштабування дещо складніше для кількісного визначення.
f:X→RA∈L(X)J:X→R
J(x)=∇J(x)=∇2J(x)=f(Ax)A∇f(Ax)A∇2f(Ax)A
A∇2J(x)δx=−∇J(x)
A∇2f(Ax)Aδx=−A∇f(Ax)
Aδx=−∇2f(Ax)−1∇f(Ax)
Hδx=−∇J(x)
HHδx=−A∇f(Ax)
AH
ϕ
δx=ϕ(−A∇f(Ax))
ϕϕϕA
∇2J(x)δx=−∇J(x)
точно використовуючи CG. Це саме використання Steihaug-Toint в налаштуваннях регіону довіри (стор. 171 в Ноцедалі та Райт) або Newton-CG для пошуку ліній (стор. 169 у Ноцедалі та Райт). Вони працюють досить близько до того ж, і їх не хвилює афінне масштабування. Вони також не потребують зберігання гессіанців, потрібні лише продукти вектора гессі. Дійсно, ці алгоритми повинні бути робочими конями для більшості проблем, і їх не хвилює афінне масштабування.
Щодо передумов для проблеми довірчого регіону, я не думаю, що існує простий спосіб сказати apriori, чи збираєтесь ви покращити кількість загальних ітерацій оптимізації чи ні. Дійсно, наприкінці дня методи оптимізації працюють у двох режимах. У першому режимі ми занадто далекі від радіуса конвергенції методу Ньютона, тому ми глобалізуємось і просто змушуємо ітерації гарантувати, що мета знижується. Довіра-регіон - це один із способів. Шукати рядків - це інше. У другому режимі ми знаходимося в радіусі конвергенції методу Ньютона, тому ми намагаємося не з цим возитися і дозволяємо методу Ньютона робити свою роботу. Насправді ми можемо побачити це в доказі конвергенції таких речей, як методи довірчого регіону. Наприклад, подивіться на теорему 4.9 (с.93 у Ноцедалі та Райте). Дуже чітко вони заявляють, як область довіри стає неактивною. У цьому контексті яка корисність попереднього кондиціонера? Звичайно, коли ми знаходимося в радіусі конвергенції методу Ньютона, ми робимо набагато менше роботи, і кількість ітерацій СГ зменшується. Що відбувається, коли ми знаходимось поза цим радіусом? Це свого роду залежить. Якщо ми обчислимо повний крок Ньютона, то користь полягає в тому, що ми зробили менше роботи. Якщо ми рано відрізаємо наш крок через усічення від усіченої-CG, то наш напрямок буде в підпросторі Крилова
{−P∇J(x),−(PH)(P∇J(x)),…,−(PH)k(P∇J(x))}
PH{−∇J(x),−(H)(∇J(x)),…,−(H)k(∇J(x))}?
Це не означає, що у визначенні хорошого попереднього кондиціонера немає значення. Однак я не впевнений, як хтось визначає попередній передумови для сприяння оптимізації для точок, що не відповідають радіусу конвергенції методу Ньютона. Зазвичай ми розробляємо передумовник для кластеризації власних значень наближення Гессі, що є відчутною, вимірюваною метою.
tldr; Практично кажучи, існує більш широкий спектр способів методу пошуку рядків для генерування ітерату, ніж метод довіри регіону, тому можливо, є дивовижний спосіб впорядкувати афінне масштабування. Однак просто використовуйте неточний метод Ньютона, і це не має значення. Попередній кондиціонер впливає на ефективність алгоритму вдалині від радіусу конвергенції методу Ньютона, але важко підрахувати його кількість, тому просто спроектуйте попередній умова для кластеризації власних значень наближення Гессіасна.