Виведення BFGS є більш інтуїтивним, якщо враховувати (строго) опуклі функціонали витрат:
x k f f ( x k + p ) ≈ f ( x k ) + ∇ f ( x k ) T p + 1
f( x ) → хвx ∈ Rн.
хкfp ( ∗ ) x k + 1 : = x k + p ( ∗ ) p H ( x k ) [ x k + 1 - x k ] = ∇ f ( x k + 1 ) - ∇ f ( x k ) , Нf( хк+ p ) ≈ f( хк) + ∇ f( хк)Тр + 12pТН( хк) стор .( ∗ )
p( ∗ )хk + 1: = хк+ р( ∗ )p"- і встановлення його в нуль дає відношення
де - ' Якобій градієнта 'або матриця Гессі.
Н( хк)[ хк+ 1- хк]= ∇ f(хk +1)- ∇ f(хк) ,
Н
Оскільки обчислення та інверсія гессена коштує дорого ...
... коротка відповідь
(пор. оновлення Бройдена), можливо, що оновлення BFGS мінімізує
у розумно обраній зваженій нормі Фробеніуса, на тему ‖ H - 1 k - H - 1 ‖ WН- 1k + 1
∥ Н- 1к- Н- 1∥W
- Н[ хk + 1- хк] = ∇ f( хk + 1) - ∇ f( хк) - це те, для чого виходить - і
- НТ= Н , тому що гессіан симетричний.
Тоді вибір ваги в як зворотна усередненої Гессе , пор. тут для твердження, але без доказів, наводиться формула оновлення (з ).W∥ Н∥W: = ∥ Ш1 / 2НW1 / 2∥Ж
G : = ∫10Н( хк+ τр ) гταк= 1
Основні моменти:
- Спробуємо наблизити рішення до фактичних витрат рішенням для квадратичного наближення
- Розрахунок Гессі та його зворотного коштує дорого. Один віддає перевагу прості оновлення.
- Оновлення вибирається оптимальним для зворотного, а не власне гессіанського.
- Те, що це оновлення 2-го рангу, є наслідком конкретного вибору ваг у нормі Фробеніуса.
Більш довга відповідь повинна містити, як вибрати ваги, як зробити цю роботу для непопуклих проблем (де з'являється умова кривизни, що вимагає масштабування напрямку пошуку ), і як отримати фактичну формулу оновлення. Посилання тут (німецькою мовою).p