Переваги підходу до проблеми шляхом формулювання вартісної функції, оптимізованої в усьому світі


9

Це досить загальне питання (тобто не обов'язково специфічне для статистики), але я помітив тенденцію в машинному навчанні та статистичній літературі, де автори вважають за краще дотримуватися наступного підходу:

Підхід 1 : Отримайте рішення практичної задачі, сформулювавши функцію витрат, для якої можна (наприклад, з обчислювальної точки зору) знайти оптимальне глобальне рішення (наприклад, формулюючи функцію опуклої вартості).

а не:

Підхід 2 : Отримайте рішення тієї самої проблеми, сформулювавши функцію витрат, для якої ми можемо не отримати глобально оптимального рішення (наприклад, ми можемо отримати лише локально оптимальне рішення для неї).

Зауважте, що суворо кажучи, дві проблеми різні; припущення полягає в тому, що ми можемо знайти глобально оптимальне рішення для першого, а не для другого.

Інші міркування в стороні (тобто швидкість, простота реалізації тощо), я шукаю:

  1. Пояснення цієї тенденції (наприклад , математичні або історичні аргументи)
  2. Переваги (практичні та / або теоретичні) для дотримання підходу 1 замість 2 при вирішенні практичної проблеми.

Відповіді:


3

Я вважаю, що метою має бути оптимізація функції, яка вас зацікавила. Якщо це трапиться на кількість неправильних класифікацій - а не на біноміальну ймовірність, - тоді слід спробувати мінімізувати кількість помилок. Однак із зазначених практичних причин (швидкість, реалізація, нестабільність тощо) це може бути не таким простим, а може бути і неможливим. У такому випадку ми вирішимо наблизити рішення.

Я знаю в основному дві стратегії наближення; або ми придумуємо алгоритми, які намагаються безпосередньо наблизити рішення вихідної проблеми, або переформулюємо оригінальну задачу як більш безпосередньо вирішувану задачу (наприклад, опуклі релаксації).

Математичний аргумент в користь переваги одного підходу над іншим , чи можемо ми розуміємо , а) властивості розчину фактично обчислений і б) наскільки добре рішення наближає вирішення проблеми на самому ділі ми зацікавлені.

Мені відомо багато результатів статистики, де ми можемо довести властивості рішення проблеми оптимізації. Мені здається складніше проаналізувати рішення алгоритму, де у вас немає математичної постановки того, що він обчислює (наприклад, що він вирішує задану оптимізаційну задачу). Я, звичайно, не стверджую, що ви не можете, але це здається теоретичною користю , якщо ви зможете дати чітку математичну формулювання того, що ви обчислюєте.

Мені незрозуміло, якщо такі математичні аргументи дають якусь практичну користь для підходу 1 над підходом 2. Там, безумовно, є хтось, хто не боїться функції невипуклої втрати .


Дякуємо за посилання на розмову Yann LeCun. Я з нетерпінням чекаю його перегляду.
Амеліо Васкес-Рейна

1

@NRH дав відповідь на це питання (більше 5 років тому), тому я просто запропоную підхід 3, який поєднує підходи 1 і 2.

Підхід 3 :

  1. Сформулюйте та вирішіть до глобальної оптимальності випуклу, або в будь-якому випадку глобально оптимізовану (не обов'язково опуклу) проблему, яка "близька" до проблеми, яку ви дійсно хочете вирішити.
  2. Використовуйте глобально оптимальне рішення з кроку 1 в якості вихідного (початкового) рішення проблеми, що не є опуклою оптимізацією, яку ви дійсно хочете вирішити (або більше хочете вирішити, ніж завдання, вирішене на кроці 1). Сподіваємось, що ваше початкове рішення знаходиться в «області потягу» до глобального оптимуму щодо методу рішення, який використовується для вирішення проблеми, що не є опуклою оптимізацією, яку ви дійсно хочете вирішити.

Наведіть, будь ласка, конкретний приклад.
horaceT

Це не зовсім справа Марка, але загальним підходом до багатьох проблем із комп’ютерним зором є використання градуйованої невипуклості для отримання послідовності «хороших» локальних оптиміз щодо суміжних проблем. Конкретним прикладом є крупний тонкий оптичний потік, коли для пари зображень використовується вирівнювання грубої шкали для нанесення пошуку в більш тонких масштабах, рухаючись через пару пірамід зображень .
GeoMatt22

@horaceT Скажімо, ви хочете вирішити нелінійну задачу з найменшими квадратами ~ , яка не є опуклою. На кроці 1 ви могли б вирішити лінійну задачу з найменшими квадратами ~ , яка опукла і може бути вирішена до глобальної оптимальності. Тоді на кроці 2 використовуйте як вихідні значення для нелінійних найменших квадратів. Проблеми схожі, але помилки трактуються по-різному. Існує багато проблем, в яких бажано невипуклий штраф (для кроку 2), але його можна замінити опуклим покаранням для кроку 1. Також можливі кілька ітерацій. yaebxyaa+bbxa=eaaoptimal,b=bboptimal
Марк Л. Стоун

@ GeoMatt22 Те, що ви описали, є схожим за духом і збігається з так званими методами гомотопії, в яких шлях до вирішення проблеми, яку ви дійсно хочете вирішити, простежується шляхом вирішення ряду проблем, в яких параметр, наприклад обмеження обмеження, поступово змінюється і вирішуються послідовні проблеми, для яких першу проблему легко вирішити з нуля. Дійсно, може бути, що перша проблема опукла або інакше піддається вирішенню, але пізніших проблем може не бути, хоча їх оптимальне рішення може бути безперервним у параметрі.
Марк Л. Стоун
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.