Максимізація невідомої шумової функції

Мене цікавить максимізація функції , де . $f(\mathbf \theta)$ $\theta \in \mathbb R^p$

Проблема полягає в тому, що я не знаю аналітичної форми функції чи її похідних. Єдине, що я можу зробити - це оцінити функцію точково, додавши значення і отримати оцінку NOISY у цій точці. Якщо я хочу, я можу зменшити мінливість цих оцінок, але мені доведеться оплачувати зростаючі обчислювальні витрати. $\theta_*$ $\hat{f}(\theta_*)$

Ось що я спробував поки що:

Стохастичний найкрутіший спуск з кінцевими відмінностями: він може працювати, але для цього потрібна велика настройка (наприклад, послідовність посилення, коефіцієнт масштабування), і це часто дуже нестабільно.
Імітований відпал: він працює і є надійним, але він вимагає безлічі оцінок функцій, тому я знайшов це досить повільно.

Тому я прошу пропозиції / ідеї щодо можливого альтернативного методу оптимізації, який може працювати в цих умовах. Я тримаю проблему якомога загальнішою для того, щоб заохочувати пропозиції з науково-дослідних напрямків, відмінних від моєї. Треба додати, що мене дуже зацікавив би метод, який міг би дати мені оцінку Гессі при конвергенції. Це тому, що я можу використовувати його для оцінки невизначеності параметрів . Інакше мені доведеться використовувати кінцеві відмінності навколо максимуму, щоб отримати оцінку. $\theta$

optimization monte-carlo simulation

— Югурта
джерело

Якщо ви не можете сказати нічого більш конкретного щодо шуму, пов’язаного з результатами роботи вашої функції, я не впевнений, що щось складніше, ніж модельоване відпал (вам навіть доведеться налаштувати це, певною мірою), допоможе.

— Арон Ахмадія

На жаль, я не знаю багато про випадковий шум, пов'язаний з кожною оцінкою функції. Її розподіл невідомий, і він може бути функцією . З іншого боку, шуми, які впливають на послідовні оцінки функцій, не залежать. Очевидно, я припускаю, що дисперсія шуму не величезна, інакше максимізація була б неможливою.

θ

$\theta$

— Югурта

З іншого боку, припустимо, що я знаю щось про розподіл шуму, наприклад, що . Чи допомогли б мені ці знання?

\hat{f} (θ_{*}) \sim N (f (θ_{*}), σ)

$\hat{f}(\theta_*) \sim N(f(\theta_*),\sigma)$

— Югурта

Схоже, я виправляюся професором Ноймаєром :)

— Арон Ахмадія

Тут фізики я використовував CMA-ES для оптичного формування фаз (оптимізуючи фазу лазерного імпульсу за допомогою імпульсного формувача), що досить шумно.

— tillsten

Відповіді:

Наш пакет Matlab SnobFit був створений саме для цієї мети. Ніяких припущень щодо розподілу шуму не потрібно. Більше того, значення функцій можуть надаватися через текстові файли, таким чином ви можете застосовувати їх до функцій, реалізованих у будь-якій системі, здатній записати текстовий файл. Дивіться
http://www.mat.univie.ac.at/~neum/software/snobfit/

SnobFit був розроблений для програми, де оптимізована функція навіть не існувала, а значення функцій (міра якості виготовлення) були отримані спеціалізованим дорогим обладнанням, яке створювало зразкові вироби та вимірювало їх вручну, в результаті чого було досягнуто близько 50 функцій оцінки в день.

— Арнольд Ноймаєр
джерело

Дуже дякую за вашу відповідь. Я почав читати вашу статтю про пакет SnobFit, і мені здається, що це дуже цікаво. Також, читаючи вступ до вашої статті, я зрозумів, що проблема, з якою я маю справу (у статистичному контексті), досить часта в промисловій математиці. Є велика література, про яку я абсолютно не знав. Насправді підхід, над яким я працював, дещо схожий на квадратичне наближення Пауелла (2002).

— Югурта

Чи добре працює snobfit із 128 градусами свободи? Тільки щоб знати, що варто спробувати для моєї справи.

— tillsten

@tillsten: Жоден метод для галасливої проблеми не працює добре із 128 dof, якщо ви не можете витратити величезну кількість значень функції. Ви можете спробувати наш VXQR1, який призначений для не галасливих проблем, але іноді добре справляється з галасливими проблемами.

— Арнольд Ноймайер

Межа для Snobfit становить близько 20 змінних. якщо у вас є більше, вам потрібно вибрати здоровим глуздом групи з 20 змінних, які ви частково оптимізуєте по черзі. Або ви можете дозволити одночасно ковзати деякі змінні, щоб зменшити розмірність.

— Арнольд Ноймаєр

Існує кілька методів оптимізації Байєса , які ви можете спробувати. Найпростіші базуються на Гауссовому процесі:

Гарольд Дж. Кушнер. Новий метод розташування максимуму довільної багатошпинкової кривої за наявності шуму. Журнал базової інженерії, стор. 86: 97–106, березень 1964 року.
Дж. Мокус. Байєсівський підхід до глобальної оптимізації. Лекційні записки з контрольних та інформаційних наук, 38: 473–481, 1982.
Ніранджан Шрінівас, Андреас Краузе, Шам Какаде та Маттіас Зегер. Гауссова оптимізація процесів у бандитській обстановці: Без жалю та експериментальної конструкції. У Зб. Міжнародна конференція з машинного навчання (ICML), 2010 р.
Андреас Краузе, Аджіт Сінгх та Карлос Гострін. Розміщення сенсорів наближеного до оптимального в процесах Гаусса: теорія, ефективні алгоритми та емпіричні дослідження. Дж. Мах. Дізнайтеся. Рес., 9: 235–284, червень 2008.

Вони діють, формуючи задній над правдоподібними функціями, дають спостереження до цих пір, і пропонуючи наступний момент швидко вивчити функцію, а також знайти глобальні максимуми (див. Мою допис у блозі ).

Ще одна перевага полягає в тому, що ви можете оцінити гессіана за максимумами. Однак вам потрібно вказати шумову модель.

— Спогад
джерело

Алгоритм SPSA Джеймса Спалла (короткий варіант для стохастичного збурення з симуляцією відпалу, якщо я правильно пам'ятаю) був розроблений саме для цієї проблеми. У нього є кілька паперів, де він використовує його для таких проблем, як описаний вами.

— Вольфганг Бангерт
джерело

Я спробував підхід Спалла, заснований на стохастичній версії найкрутішого походження та Рафсона Ньютона. Я спробував симульований відпал, але не версія, запропонована Spall, я повинен спробувати. Я не дуже в захваті від імітованого відпалу, тому що я не можу отримати оцінку гессіана при конвергенції (хоча, наприклад, зі стохастичним Рафсоном Ньютоном, я можу отримати наближення до гессіанського "безкоштовно").

— Югурта