Пошук глобального мінімуму гладкої, обмеженої, неопуклої 2D функції, яку дорого оцінити

17

У мене є обмежена невипукла 2-D функція, яку я хотів би знайти мінімум. Функція досить плавна. Оцінити це дорого. Прийнятна помилка становить близько 3% домену функції в кожній осі.

Я спробував запустити реалізацію алгоритму DIRECT в бібліотеці NLOPT, але це не дало значного покращення в порівнянні з пошуком грубої сили з точки зору кількості оцінок функцій, необхідних для необхідної точності, і були деякі атрибути.

Які ще вирішувачі глобальної оптимізації слід розглянути?

optimization

— Віктор Мей
джерело

Чи можете ви обчислити градієнти, або вам потрібно буде наблизити їх за різницевими коефіцієнтами?

— Арнольд Ноймаєр

Мені потрібно наблизити їх за різницевими коефіцієнтами.

— Віктор,

У цьому випадку метод Ньютона не рекомендується рекомендувати, оскільки числові похідні чисельних чисельно дуже нестабільні, і їх важко налаштувати на безпечну роботу.

— Арнольд Ноймаєр

@Victor May, чим ти закінчив? (Якщо ви можете опублікувати функцію, аналогічну вашій, це дійсно допоможе людям порівнювати та налаштовувати різні алгоритми.)

— деніс

@ Деніс, я намагався досягти більшої швидкості з алгоритму відстеження об’єкта у відео. Вихід алгоритму був оцінкою ймовірності, щоб кожне місце зображення містило відслідковуваний об'єкт. Зображення, що містить ці оцінки ймовірності, - це функція, яку я намагався оптимізувати. Я закінчився грубим форсуванням на декількох етапах розв'язання. Для отримання додаткової інформації про відповідний алгоритм відстеження читайте статтю "Надійна відслідковування фрагментів за допомогою інтегральної гістограми".

— Віктор Травень

12

Я хотів би запропонувати дещо інший підхід порівняно з іншими відповідями, хоча @barron побічно обговорював те саме.

Замість того, щоб оптимізувати свою функцію безпосередньо, тобто оцінюючи її у серії точок балів, які (сподіваємось) сходяться до (локального) оптимуму, ви можете використовувати концепцію , яка є дуже добре підходить для задач описаного типу (висока вартість, гладка, обмежена, низька розмірність, тобто менше 20 невідомих). $\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_k$ $\textit{surrogate modelling}$

В Зокрема, сурогатне моделювання працює шляхом створення модельної функції вашої істинної функції . Ключовим є те, що хоч звичайно, не ідеально відповідає , оцінити його набагато дешевше. $c \in \mathbb{R}^d \rightarrow \mathbb{R}$ $f \in \mathbb{R}^d \rightarrow \mathbb{R}$ $c$ $f$

Отже, типовим процесом оптимізації буде такий:

Оцініть за набором початкових точок . Зауважте, що похідні не потрібні. Також зауважте, що ці точки повинні розподілятися рівномірно по всьому простору пошуку, наприклад, за допомогою зразків латинської гіперкуби або подібної конструкції, що заповнює простір. $f$ $j$ $\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_j$
На основі цього оригінального набору даних створіть функцію моделі . Ви можете використовувати перехресну перевірку для перевірки вашої моделі (тобто, для створення , використовуйте лише підмножину початкових точок , а потім використовуйте решту набору даних, щоб перевірити, наскільки спрогнозує ці значення) $c$ $j$ $c$ $c$
Використовуйте такий критерій, як критерій очікуваного вдосконалення (EI), щоб з’ясувати, де «заповнити» більше зразків, щоб зробити більш точним шляхом вибірки . Це насправді набагато краще вивчено теоретично, ніж може здатися, і критерій ЕІ дуже добре вивчений. Критерій EI також не є жадібним критерієм, тому ви обидва отримуєте хороше загальне поліпшення точності моделі, одночасно визначаючи пріоритетність точності біля потенційних оптимізмів. $c$ $f$
Якщо ваша модель недостатньо точна, повторіть крок 3, інакше скористайтеся улюбленою програмою оптимізації, щоб знайти оптимум , який буде дуже дешево оцінити (так що ви можете використовувати будь-яку потрібну рутину, навіть ту, яка вимагає похідних, або просто оцініть функцію в тонкій сітці). $c$

Загалом, це означає EGO, Efficient Global Optimization, як запропонував @barron. Я хотів би підкреслити, що для вашого застосування це здається цілком підходящим - ви отримуєте напрочуд точну модель, засновану на порівняно мало оцінках , а потім можете використовувати будь-який алгоритм оптимізації, який ви хочете. Що часто також цікаво, це те, що тепер ви можете оцінити на сітці та побудувати її, тим самим отримавши уявлення про загальний вигляд . Ще один цікавий момент полягає в тому, що більшість методів сурогатного моделювання також дають статистичні оцінки помилок, що дозволяє оцінити невизначеність. $f$ $c$ $f$

Як побудувати , звичайно, є відкритим питанням, але часто використовуються моделі Кріґінга або так звані космічні карти. $c$

Звичайно, це все досить багато роботи з кодування, але багато інших людей зробили дуже хороші реалізації. У Matlab я знаю лише про те, що програмне забезпечення DACE програмне забезпечення DACE безкоштовне. TOMLAB також може запропонувати пакет Matlab, але коштує грошей - однак, я вважаю, що він також працює в C ++ і має набагато більше можливостей, ніж коли-небудь матиме DACE. (Примітка. Я один із розробників нової версії DACE, незабаром вийде, яка запропонує додаткову підтримку EGO.)

Сподіваємось, що цей грубий огляд вам допоміг, будь ласка, задайте питання, чи є моменти, які можна зробити більш зрозумілими або те, що я пропустив, або якщо ви хочете отримати додатковий матеріал з цього питання.

— ОскарБ
джерело

Fwiw, сурогатна модель google представляє лабораторію сурогатного моделювання в університеті в Генті та книгу інженерного дизайну через Surrogate Modeling , 2008 228p 0470770791. Проблема будь-якого дуже загального підходу полягає в тому, що незабаром у вас є кухонна мийка, повна варіантів методів, і більше ніж реальні тестові функції.

— деніс

8

Побачити

LM Rios та NV Sahinidis, Оптимізація без похідних: огляд алгоритмів та порівняння програмних реалізацій

для дуже корисного недавнього порівняння розв’язувачів.

DOI: 10.1007 / s10898-012-9951-у

— Арнольд Ноймаєр
джерело

3

Для плавної функції метод Ефективна глобальна оптимізація повинен працювати досить добре і бути значно ефективнішим, ніж Пряма. Реалізації доступні в TOMLAB (я не використовував його сам) та DAKOTA (з чим я мав певний успіх).

— Баррон
джерело

1

Оскільки функція гладка, метод Ньютона стане переважним найбільш ефективним методом пошуку мінімуму. Оскільки функція не є опуклою, вам доведеться застосовувати звичайні хитрощі, щоб зблизити метод Ньютона (модифікація Левенберга-Маркварда, пошук ліній або довіряючий регіон для глобалізації). Якщо ви не можете отримати похідні функції, спробуйте або обчислити її за допомогою обмежених відмінностей, або скористайтеся оновленням BFGS. Якщо ви підозрюєте, що в проблемі є більше одного локального мінімуму, можна було б просто запустити метод Ньютона з купки випадкових чи не зовсім випадкових обраних точок і подивитися, куди вони сходяться.

— Вольфганг Бангерт
джерело

Моя проблема справді має місцеві мінімуми. Які існують методи вибору вихідних точок?

— Віктор

1

Якщо ви нічого не знаєте про проблему, статистичний вибірки - це, по суті, ваш єдиний вибір.

— Вольфганг Бангерт

@Wolfgang: Будь-які ідеї, як підійти до "статистичної вибірки"? Просто спробуйте 10, 100, ... випадкові початкові здогадки? Чи є "жорсткіші" підходи? Запитую , бо у мене більш-менш схожа проблема (див. Scicomp.stackexchange.com/q/4708/1789 )

— Андре

Все залежить від того, що ви знаєте про функцію. Якщо ви знаєте щось на зразок "типової шкали довжини" для вашої функції, це б вказувало на те, наскільки далеко буде відокремлена локальна екстремальність. Це також дасть вам інформацію про те, з яких пунктів ви можете почати, і наскільки далеко вони повинні вибирати один одного.

— Вольфганг Бангерт

0

Оскільки ваші оцінки дорогі, вам потрібно скористатися паралельним проведенням оцінок функцій декількох.

Я рекомендую вам поглянути на цей код . Математика позаду описується тут .

— Пол
джерело

1

цей код і стаття написані вами? Якщо так, то ви можете прямо сказати так у своїй відповіді? Також зараз ви можете покращити відповідь, надавши опис вашої пропозиції.

— nicoguaro