Плутанина щодо правила Армійо

У мене ця плутанина щодо правила Armijo використовується при пошуку рядків. Я читав пошук пошуку в рядку відстеження, але не зрозумів, про що йдеться в цьому правилі Армійо. Хтось може розробити, що таке правило Армійо? Вікіпедія, схоже, не пояснює. Спасибі

optimization

— користувач34790
джерело

Що робити, якщо в рівнянні змінна x не вектор, а матриця? Як слід оновити правило Armijo?

— Френк Пук

нічого не змінюється. ви повинні просто переробити матрицю

у векторний (стовпець)

X_{k}

$X_k$

x_{k}

$x_k$

— GoHokies

Ось де я застряг. Коли

стає матрицею, значення зліва (

) все ще є скалярним. Але значення в правій частині немає - натомість це матриця (

- скаляр, а

- матриця.)

x_{k}

$x_k$

f (x_{k} + α p_{k})

$f(x_k+\alpha p_k)$

f (x_{k})

$f(x_k)$

β α \nabla f (x_{k})^{T} p_{k}

$\beta\alpha∇f(x_k)^Tp_k$

— Френк Пук,

вам потрібно буде працювати з вектором, а не з матрицею. тож ви переформатуєте свою матрицю

контрольних змінних (я позначила це

) у вектор

елементами. Напрямок пошуку та градієнт також будуть векторами з

елементами. таким чином і РЗС, і ЛГС умови Армійо є скалярами і їх можна порівняти.

N \times N

$N \times N$

X_{k}

$X_k$

x_{k}

$x_k$

N^{2}

$N^2$

N^{2}

$N^2$

— GoHokies

Відповіді:

Як тільки ви отримаєте напрямок спуску для вашої цільової функції , вам потрібно вибрати «добру» довжину кроку. Ви не хочете робити занадто великий крок, щоб функція у вашій новій точці була більшою, ніж ваша поточна точка. У той же час, ви не хочете робити свій крок занадто малим, щоб вічно зайти на конвергенцію. $p$ $f(x)$

Стан Армійо, по суті, говорить про те, що «хороша» довжина кроку така, що ви маєте «достатнє зменшення» у новій точці. Умова математично висловлюється як де - напрямок спуску при і . $f$

f (x_{k} + α p_{k}) \leq f (x_{k}) + β α \nabla f (x_{k})^{T} p_{k}

$f(x_k+\alpha p_k)\leq f(x_k)+\beta\alpha\nabla f(x_k)^Tp_k$

p_{k}

$p_k$

x_{k}

$x_k$

β \in (0, 1)

$\beta\in(0,1)$

Інтуїція, що стоїть за цим, полягає в тому, що значення функції в новій точці повинно знаходитися під зменшеною "дотичною лінією" на у напрямку . Дивіться книгу Nocedal & Wright "Числова оптимізація". У главі 3 є відмінний графічний опис достатнього зменшення стану армійо. $f(x_k+\alpha p_k)$ $x_k$ $p_k$

— Пол
джерело

β

$\beta$

α

$\alpha$

Причина, що це взагалі має значення, тобто чому потрібен «хороший» крок, полягає в тому, що багато схем оптимізації будуть конвергуватися повільніше, як каже Павло, або можуть взагалі не сходитися. Тож пошук ліній - який існує в декількох різновидах, Armijo - просто найпопулярніший - можна використовувати для надання алгоритмам більш надійних властивостей конвергенції.

— cjordan1

Пол: ваше пояснення неповне. Ця нерівність сама по собі не гарантує «достатнього» зменшення. Насправді ви можете мати альфа = 0 і все ще задовольняє написану нерівність. Важливою особливістю правила Armijo є обмеження розміру кроку від нуля, що робиться за допомогою іншої нерівності: f (gamma * x_new) -f (x_old)> beta * (gamma * x_new-x_old) ^ T * grad (f (x_old))

f (x) = x^{2}

$f(x) = x^2$

x_{k} = - 1

$x_k = -1$

p_{k} = - 2

$p_k = -2$

α

$\alpha$

f (x_{k} + α p_{k})

$f(x_k + \alpha p_k)$

α = 1 / 2

$\alpha = 1/2$

β > 1 / 2

$\beta > 1/2$

f (x_{k} + 1 / 2 p_{k}) = 0 > 1 - 2 β = f (x_{k}) + β α f^{'} (x_{k}) p_{k}

$f(x_k + 1/2 p_k) = 0 > 1 - 2 \beta = f(x_k) + \beta \alpha f'(x_k) p_k$

β

$\beta$

β > 1 / 2

$\beta > 1/2$

β = 10^{- 4}

$\beta = 10^{-4}$

β

$\beta$

Через п’ять років це питання все ще актуальне.

Тут (стор. 16 і 17) ви можете знайти чудове пояснення, включаючи Алгоритм.

— Боян Хрнкас
джерело