TL; DR
Я рекомендую використовувати LIPO. Це доказувально правильно і доказово краще, ніж чистий випадковий пошук (PRS). Він також надзвичайно простий у виконанні та не має гіперпараметрів. Я не проводив аналіз, який порівнював LIPO з BO, але я сподівався, що простота та ефективність LIPO означають, що він буде перемагати БО.
(Див. Також: Які є недоліки байєсівської оптимізації гіпер параметрів? )
Байєсова оптимізація
Баєсові методи оптимізації будують сурогатні моделі Гаусса для дослідження простору параметрів. Основна ідея полягає в тому, що кортежі параметрів, які знаходяться ближче один до одного, матимуть подібні значення функцій, тому припущення про структуру ко-дисперсії серед точок дозволяє алгоритму робити зрозумілі здогадки про те, який найкращий кортеж параметрів найбільш вартий спробувати наступний. Ця стратегія допомагає зменшити кількість оцінок функцій; насправді мотивація методів БО полягає в тому, щоб число оцінок функцій було максимально низьким, "використовуючи цілого буйвола", щоб добре здогадатися, який пункт слід перевірити далі. Існують різні показники достоїнств (очікуване покращення, очікуване поліпшення кількості, ймовірність покращення ...), які використовуються для порівняння балів, які слід відвідати наступним.
Порівнюйте це з чимось на зразок пошуку в сітці, який ніколи не використовуватиме будь-яку інформацію з попередніх оцінок функцій для інформування, куди йти далі.
Між іншим, це також є потужною технікою глобальної оптимізації, і тому вона не дає припущень щодо опуклості поверхні. Крім того, якщо функція стохастична (скажімо, оцінки мають деякий притаманний випадковий шум), це може бути безпосередньо враховано у моделі GP.
З іншого боку, вам доведеться підходити принаймні до одного лікаря-терапевта на кожній ітерації (або декількох, вибираючи "найкраще" або усереднюючи альтернативи, або повністю байєсівські методи). Потім модель використовується для складання (ймовірно, тисяч) прогнозів, як правило, у вигляді багатостартової локальної оптимізації, із зауваженням, що оцінити функцію прогнозування GP набагато дешевше, ніж функцію, що оптимізується. Але навіть з цим обчислювальним накладним покриттям, як правило, трапляється так, що навіть невипуклі функції можна оптимізувати за відносно невеликої кількості викликів функцій.
Документ на цю тему, що цитується, - Jones et al. , «Ефективна глобальна оптимізація дорогих функцій чорного ящика». Але існує багато варіацій цієї ідеї.
Випадковий пошук
Навіть коли дорогу оцінити функцію вартості, випадковий пошук все ще може бути корисним. Випадковий пошук є брудним. Єдиний вибір для дослідника - це встановити ймовірність якою ви хочете, щоб ваші результати лежали в якомусь квантилі ; решта надходить автоматично, використовуючи результати основної ймовірності.qp q
Припустимо, ваш квантил дорівнює і ви хочете, щоб ймовірність того, що результати моделі знаходяться в топіці відсотків усіх кортежів гіперпараметра. Ймовірність того, що всі спробуваних кортежів не знаходяться у цьому вікні, дорівнює (оскільки вони обрані незалежно незалежно від одного і того ж розподілу), тому ймовірність того, що принаймні один кортеж знаходиться в цій області, становить . Збираючи все це у нас єp = 0,95 100 × ( 1 - q ) = 5 n q n = 0,95 n 1 - 0,95 nq=0.95p=0.95100×(1−q)=5nqn=0.95n1−0.95n
1−qn≥p⟹n≥log(1−p)log(q)
що в нашому конкретному випадку дає .n≥59
Цей результат є тим, чому більшість людей рекомендують спроб кортежів для випадкового пошуку. Варто зазначити, що можна порівняти з кількістю експериментів, необхідних для отримання хороших результатів методами на основі Гауссового процесу, коли є помірне число параметрів. На відміну від Гауссових процесів, кількість кортежів запитів не змінюється з кількістю гіперпараметрів для пошуку; Дійсно, для великої кількості гіперпараметрів метод Гаусса, який базується на процесі, може зайняти багато ітерацій.n = 60n=60n=60
Оскільки у вас є вірогідна гарантія того, наскільки хороші результати, це може бути переконливим інструментом, щоб переконати свого шефа, що не потрібно проводити більше експериментів.
ЛІПО та його варіанти
Це захоплююче прибуття, яке, якщо воно не нове , для мене, безумовно, нове. Це відбувається шляхом чергування розміщення поінформованих меж функції та вибірки з найкращої межі та використанням квадратичних наближень. Я все ще переглядаю всі деталі, але думаю, що це дуже перспективно. Це приємне написання блогу , і стаття Седріка Малхербе та Ніколя Ваятіса " Глобальна оптимізація функцій Ліпшіца" .