Переваги оптимізації рою частинок над Байєсовою оптимізацією для налаштування гіперпараметрів?


18

Існує суттєве сучасне дослідження Байєсової оптимізації (1) для налаштування гіперпараметрів МЛ. Мотивація водіння тут полягає в тому, що необхідна мінімальна кількість точок даних, щоб зробити обґрунтований вибір того, які точки варто спробувати (виклики об'єктивних функцій дорогі, тому менше робити менше), тому що підготовка моделі є трудомісткою - дещо скромно -великі проблеми SVM, над якими я працював, можуть зайняти від декількох хвилин до години.

З іншого боку, Optunity - це реалізація рою частинок для вирішення того ж завдання. Я не надто знайомий з PSO, але здається, що він повинен бути менш ефективним у сенсі вимагати більшої кількості пробних балів, а отже, об'єктивних оцінок функцій для оцінки поверхні гіперпараметра.

Чи пропускаю я ключову деталь, завдяки якій PSO вважає за краще ВО в контексті машинного навчання? Або вибір між цими двома завжди притаманний контекстуальним завданням налаштування гіперпараметра?


(1) Шахріарі та ін., "Виведення людини з циклу: огляд байєсівського оптимізайтона".


не потрібен градієнт. працює з розривом. помірно ефективний. обробляє кілька розмірів. добре обробляє шум. Має вбудовану надійність оцінювача.
EngrStudent

@EngrStudent Ви можете сказати, що всі речі про BO, за винятком BO є більш ефективним, оскільки він вимагає меншої кількості оцінок функцій, принаймні, на мою думку. Я взагалі не питаю про ПСО, а про його заслуги щодо БО.
Sycorax каже, що повернемо Моніку

1
Недостатньо добре вивчений темою, щоб зробити це остаточною відповіддю, але я думаю, що Байєсова оптимізація повинна спіткати таку саму долю, що і найефективніші оптимізатори з сильно мультимодальними проблемами (див .: 95% проблем машинного навчання): це нулі на найближчий локальний мінімум без "огляду" глобального простору. Я думаю, що Рой частинок матиме більше удачі в пошуку немісцевих мінімумів.
Кліф АВ

2
Вибачте за мій пізній приїзд на вечірку, не впевнений, як мені так довго вдалося пропустити питання про Optunity! :-)
Marc Claesen

1
@MarcClaesen Треба визнати, я сподівався, що ти знайдеш час відповісти в якийсь момент. Пізно чи ні, я думаю, ми всі раді, що ви приїхали.
Sycorax каже, що поверніть Моніку

Відповіді:


25

Як провідний розробник Optunity я додам свої два центи.

Ми зробили широкі орієнтири, порівнюючи Optimum з найпопулярнішими байєсівськими вирішувачами (наприклад, гіперпептиком, SMAC, байесоптом) щодо реальних проблем, і результати показують, що PSO насправді не менш ефективний у багатьох практичних випадках. У нашому орієнтирі, який складається з настройки класифікаторів SVM на різних наборах даних, Optunity насправді є більш ефективним, ніж hyperopt і SMAC, але трохи менш ефективний, ніж BayesOpt. Я хотів би поділитися результатами тут, але я буду чекати, коли Optimum нарешті буде опублікований в JMLR (переглядається вже більше року, тому не затримуйте дихання ...).

Як ви вказуєте, підвищена ефективність є часто використовуваною точкою продажу для байєсівської оптимізації, але на практиці вона тримає воду лише в тому випадку, якщо припущення базових сурогатних моделей виконують, що далеко не банально. У наших експериментах дуже простий вирішувач PSO Optimum часто конкурує зі складними байєсівськими підходами за кількістю оцінок функцій. Байєсівські розв'язувачі працюють дуже добре, якщо вони забезпечені добрими пріорами, але з неінформативним попередженням практично немає структурної вигоди від метагевристичних методів, таких як PSO, з точки зору ефективності.

Великою точкою продажу для PSO є той факт, що вона наполегливо паралельна. Байєсівську оптимізацію часто важко паралелізувати через суттєво послідовний характер (реалізація hiperopt є єдиним реальним винятком). Надаючи можливості для розповсюдження, що стає нормою, Optunity швидко переймає лідируючі позиції у настінні годинники для отримання хороших рішень.

Ще одна ключова відмінність Optimum від більшості інших виділених бібліотек для оптимізації гіперпараметрів - цільова аудиторія: Optunity має найпростіший інтерфейс і орієнтований на експертів, які не вивчають машинного навчання, тоді як для більшості інших бібліотек потрібне певне розуміння байєсівської оптимізації для ефективного використання (тобто вони є орієнтовані на спеціалістів).

Причиною, яку ми створили в бібліотеці, є те, що, незважаючи на те, що існують спеціальні методи оптимізації гіперпараметрів, вони не мають практичного застосування. Більшість людей досі або взагалі не налаштовують, роблять це вручну, або за допомогою наївних підходів, таких як сітка або випадковий пошук. На нашу думку, ключовою причиною цього є той факт, що існуючі бібліотеки до розробки Optunity були надто важкими для використання з точки зору встановлення, документації, API та часто обмежувались одним середовищем.


4
Як відповіли, як ми могли отримати! Мені цікаво: ви кажете, що розв’язувач PSO є конкурентоспроможним підходами Bayesian Optimization. Чи означає це, що паралельний запуск PSO виявляється швидшим, ніж запуск Bayseian Optimization послідовно ? Не намагаюся бути злим, але для мене це важлива відмінність.
Кліф АВ

2
Ні, обидва працюють послідовно. У наших експериментах (налаштування SVM) ефективність оптимізації PSO та байосів є конкурентоспроможною за кількістю оцінок функцій. Ми не порівнювали ефективність з точки зору часу настінного годинника в розподілених налаштуваннях, оскільки це було б недорогим знімком, оскільки багато методів оптимізації Байєса просто не можуть цього зробити.
Marc Claesen

Це цікаво. Будь-які думки, чому? Нестабільна гіперпараметрична поверхня?
Кліф АВ

3
Я думаю, що є кілька причин. Для однієї поверхні гіперпараметрів багато локальних оптимізмів (наприклад, через кінцеві ефекти вибірки, складання перехресної валідації, властива випадковість у деяких підходах до навчання). По-друге, Байєсова оптимізація спирається на побудову точних сурогатних цільових функцій, що не є легким завданням, поки цільова функція не буде відібрана багато разів. Байєсівська оптимізація займає деякий час, перш ніж прискорити конвергенцію (деталь, яка часто опускається). На той час метагевристичні методи, такі як PSO, також досягли свого локального етапу пошуку. PSO дуже добре підходить до місцевого пошуку.
Marc Claesen

4
+1 за відмінну відповідь. Я створив власне програмне забезпечення для БО, яке, мабуть визнати, є здебільшого проектом суєти на даний момент, тому я розумію, як процедура BO працює докладно; Я радий, що можу почати дряпати поверхню того, що ще відбувається у світі налаштування гіперпараметрів. Ваше зауваження щодо наївних підходів дійсно вражає мене, оскільки одна з моїх старших програм наївного налаштування вже тиждень налаштовує модель, не бачачи кінця ... Дякую за ваш внесок, і я впевнений, що у мене буде більше запитань, як тільки я це перетравлюю.
Sycorax каже, що повернеться до Моніки

0

Відповідь залежить від проблеми і не може бути надана без додаткового контексту. Зазвичай відповідь піде так. Байєсова оптимізація більше підходить для задач з невеликими розмірами з обчислювальним бюджетом, до 10x-100x, числом змінних. PSO може бути досить ефективним для значно більших бюджетів, але не є найсучаснішим у своїй ніші.


Коментарі не для розширеного обговорення; ця розмова перенесена в чат .
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.