Чому додається термін регуляризації * до функції витрат (замість множення тощо)?

51

Щоразу, коли використовується регуляризація, вона часто додається до функції витрат, наприклад у наступній функції витрат. Це має для мене інтуїтивний сенс, оскільки мінімізувати значення Функція витрат означає мінімізацію похибки (лівий член) і мінімізацію величин коефіцієнтів (правий член) одночасно (або принаймні врівноваження двох мінімізацій).

J (θ) = \frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T} + α ‖ θ ‖_{2}^{2}

$J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2$

Моє запитання: чому цей термін регуляризації $\alpha\|\theta\|_2^2$ додається до початкової функції витрат, а не помножується чи щось інше, що зберігає дух мотивації за ідеєю регуляризації? Це тому, що якщо ми просто додаємо термін до нього досить просто і дозволяє нам вирішити це аналітично, чи є якась глибша причина?

regularization

— гременстер
джерело

1

Інший аргумент - через теорему представника,

— jkabrg

2

лагранжевий множник

— Хайтао Ду

9

Якщо у вас більше незалежних змінних, ніж спостереження, ви можете отримати

\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}

$\frac 1 2(y-\theta X^T)(y-\theta X^T)^T$ до нуля кількома різними способами, тому множення на що-небудь не буде допоможіть розрізнити корисну модель

— Генрі

47

У байєсівських рамок є досить приємна інтуїція. Вважайте, що регульована функція витрат $J$ грає аналогічну роль, як ймовірність конфігурації параметра $\theta$ даними спостережень $X, y$ . Застосовуючи теорему Байєса, отримуємо:

P (θ | X, y) = \frac{P (X, y | θ) P (θ)}{P (X, y)} .

$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$

Прийняття журналу виразу дає нам:

\log P (θ | X, y) = \log P (X, y | θ) + \log P (θ) - \log P (X, y) .

$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$

Тепер скажімо, що - від'ємний ¹ log-posterior, . Оскільки останній член не залежить від , ми можемо його опустити, не змінюючи мінімуму. У вас залишаються два терміни: 1) термін вірогідності залежно від і , і 2) попередній термін залежно від . Ці два терміни точно відповідають терміну даних та терміну регуляризації у вашій формулі. $J(\theta)$ $-\log P(\theta|X,y)$ $\theta$ $\log P(X,y|\theta)$ $X$ $y$ $\log P(\theta)$ $\theta$

Ви можете піти ще далі і показати, що функція втрат, яку ви розмістили, точно відповідає такій моделі:

P (X, y | θ) = N (y | θ X, σ_{1}^{2}),

$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$

P (θ) = N (θ | 0, σ_{2}^{2}),

$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$

де параметри походять від нульового середнього гауссового розподілу, а спостереження мають нульовий середній гауссовий шум. Детальніше дивіться у цій відповіді . $\theta$ $y$

¹ Негативний, оскільки ви хочете збільшити ймовірність, але мінімізувати витрати.

— Ян Кукацька
джерело

5

Я трохи не задоволений цією відповіддю, тому що вона просто передає рукою відповідність між вартісною функцією та журналом заднього. Якщо вартість не відповідала журналу заднього, а скоріше самому задньому, ми можемо зробити висновок, що регуляризацію слід помножити на нерегульовану вартість (як, наприклад, про запитання ОП). - Щоб правильно обґрунтувати цю відповідь, вам потрібно буде обґрунтувати, чому саме журнал задній, який ми прирівнюємо до вартості. (Ви начебто робите з "ідіть ще далі", але ви отримуєте трохи хвилеподібну руку в цій точці.)

— RM

1

@RM, дійсна точка. Є причина: це тому, що стандартні функції втрат, які використовуються в машинному навчанні, відповідають лог-задньому, а не самому задньому. Чому? Оскільки вони використовують емпіричну мінімізацію ризиків; , а стандартні функції втрат зазвичай мають форму де - функція втрат, яка має розумну інтерпретацію як логічно-задньої ймовірності. (Я підозрюю, що ви це знаєте, але я просто прописую це для інших відвідувачів.)

\log P (X_{1}, \dots, X_{n}, y_{1}, \dots, y_{n} | θ) = \sum_{i} \log P (X_{i}, y_{i} | θ)

$\log P(X_1,\dots,X_n,y_1,\dots,y_n|\theta) = \sum_i \log P(X_i,y_i|\theta)$

\sum_{i} f (X_{i}, y_{i}, θ_{i})

$\sum_i f(X_i,y_i,\theta_i)$

f

$f$

— DW

@RM Якщо у вас є вартість ви завжди можете просто переосмислити свою проблему з точки зору . Іншими словами, незалежно від вашої функції витрат, він визначає розподіл на основі розділеного на деяку нормалізуючу константу, яку ви можете ігнорувати, використовуючи методи MCMC. Те, що ви завжди можете переробити з точки зору експоненції, є дуже важливим, наприклад, наприклад, для імітаційного відпалу, пробовідбірників MCMC тощо

C

$C$

C = \exp \ln C

$C = \exp{\ln C}$

\exp \ln C

$\exp{\ln C}$

— ely

@RM, наприклад, розглянемо цей документ Джуна Лю (і подібний коментар є у книзі MCMC Лю), де на сторінці 3 внизу написано: "Нехай бути цільовим розподілом ймовірності під час дослідження (імовірно, всі pdfs можуть бути записані у цій формі) "(наголос додано). Отже, з точки зору Байєса, де частина задньої частини, визначена імовірнісною моделлю, була б цією функцією втрати, ця баєсова декомпозиція для цієї відповіді була б цілком загальною.

π (x) = c \exp - h (x)

$\pi(x) = c\exp{-h(x)}$

— ely

Дякую за відповідь! Я намагаюся зрозуміти "це" на початку вашої публікації: що саме ви стверджуєте, що в байесівських рамках є приємна інтуїція? основна причина, чому додавання штрафних санкцій дає хороші оцінки? або історична (і нестатистична) причина, чому люди використовують ці додаткові оцінки? (Коли я намагався підказати

— фразу

34

Ян і Кагдас дають хороший байесівський розум, трактуючи регуляризатор як пріоритет. Ось кілька не-баєсівських:

Якщо ваша нерегульована мета випукла, і ви додаєте опуклий регуляризатор, то ваша загальна мета все одно буде опуклою. Це не буде правдою, якщо ви помножите його чи більшість інших способів комбінування. Опукла оптимізація - це дуже, дуже приємно порівняно з неопуклою оптимізацією; якщо опукла рецептура працює, то це краще робити.
Іноді це призводить до дуже простої закритої форми, оскільки Wpof згадує , що стосується регресії хребта.
Якщо ви думаєте про проблему, яку ви "дійсно" хочете вирішити як проблему із жорстким обмеженням то її подвійний Lagrange - це проблема Хоча вам і не потрібно використовувати подвійність Лагранжа, багато про це розуміється.
$min_{θ : c (θ) \leq 0} J (θ),$ $\min_{\theta : c(\theta) \le 0} J(\theta) ,$ $min_{θ} J (θ) + λ c (θ) .$ $\min_\theta J(\theta) + \lambda c(\theta) .$
Як згадував огогмад , теорема представника застосовується до випадку адитивного штрафу: якщо ви хочете оптимізувати над цілим відтворюючим ядром Гільбертового простору функцій , то ми знаємо, що рішення для оптимізації по всьому простору лежить у простому кінцевомірному підпросторі для багатьох втрат ; Я не знаю, чи було б це застосовано для мультиплікативного регулятора (хоча це може бути). Це лежить в основі SVM-файлів ядра. $f$ $\mathcal H$
$min_{f \in H} J (f) + λ ‖ f ‖_{H}^{2}$ $\min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2$ $J$
Якщо ви все-таки глибоко навчаєтесь чи щось не випуклі: втрати на добавці дають прості градієнти присадок. Для простого ви дали, він стає дуже простим зменшенням ваги . Але навіть для більш складного регуляризатора, скажімо WGAN-GP «s втрата простіше обчислювати градієнти задніх розмірів, коли йому потрібно враховувати лише суму втрати та складний регуляризатор (розглядаючи речі окремо), а не потрібно виконуйте правило продукту. $L_2$
$\sum_{x, y} \underset{the loss}{\underset{⏟}{f_{θ} (x) - f_{θ} (y)}} + λ \underset{the regularizer}{\underset{⏟}{{\hat{E}}_{α \sim U n i f o r m (0, 1)} {(‖ \nabla f_{θ} (α x + (1 - α) y) ‖ - 1)}^{2}}},$ $\sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer},$
Додаткові втрати також піддаються популярному алгоритму оптимізації ADMM та інших алгоритмів на основі "декомпозиції".

Жодне з цих правил не є жорстким і швидким, і справді іноді мультиплікативний (або який-небудь інший) регулярист може працювати краще (як вказує ogogmad ). (Насправді, я просто днями подав документ про те, як щось, що ви могли б інтерпретувати як мультипликативний регуляризатор, краще, ніж добавка WGAN-GP вище). Але, сподіваємось, це допомагає пояснити, чому регулятори добавок є "типовими".

— Дугал
джерело

2

+1. Удачі у Вашому [імовірно NIPS] поданні!

— амеба каже, що повернеться до Моніки

13

Ви хочете мінімізувати обидва терміни в цільовій функції. Тому вам потрібно розлучити умови. Якщо ви помножите терміни, у вас може бути один термін великий, а другий - дуже низький. Отже, у вас все ще виникає низьке значення цільової функції, але з небажаним результатом.

Ви можете отримати модель, яка має найбільш змінну, близьку до нуля, без прогнозованої потужності.

Об'єктивна функція, яка є функцією, яка повинна бути мінімізована, може бути побудована як сума функції витрат та терміни регуляризації.

Якщо обидва не залежать один від одного, ви отримуєте значення, проілюстровані на першому малюнку для цілі. Ви бачите, що у випадку суми є лише один мінімум при (0, 0). У випадку товару ви маєте неоднозначність. У вас ціла гіперповерхня, рівна нулю при (x = 0 або y = 0). Отже, алгоритм оптимізації може закінчуватися де завгодно залежно від вашої ініціалізації. І він не може вирішити, яке рішення краще.

— Сорен
джерело

10

Ви можете спробувати інші двійкові операції ( ) і подивитися, як вони порівнюються. $\max,\min,\times$

Проблема з та полягає в тому, що якщо помилка дорівнює , то санкціонований штраф закінчиться рівним . Це дозволяє моделі переобладнати. $\min$ $\times$ $0$ $0$

Проблема з полягає в тому, що ви закінчуєте мінімізувати "складніше" двох штрафних санкцій (помилка тренувань або регуляризація), але не інше. $\max$

На противагу цьому, просто і працює. $+$

Ви можете запитати, чому б не інші бінарні операції? Не існує жодного аргументу, який міг би їх виключати, то чому б насправді ні?

— jkabrg
джерело

8

Я думаю, у вас є дійсне питання. Щоб дати правильну відповідь, вам доведеться зрозуміти ймовірнісний характер проблеми.

Загалом проблема, яку ми намагаємося вирішити, полягає в наступному: З огляду на дані який розподіл гіпотез пояснює ці дані. Коли ми говоримо гіпотезу, ми маємо на увазі PDF (принаймні в цьому контексті). А розподіл гіпотез - це PDF-файли PDF, тобто . $D$ $p(H | D)$

$p(H | D)$ представляє собою розподіл за даними гіпотез . Якщо ми зможемо знайти це, то можемо вибрати одну з цих гіпотез, наприклад, найбільшу ймовірність, або ми можемо вибрати середнє значення для всіх. Дещо простіший підхід - атакувати проблему з іншого напрямку, використовуючи теорему Байєса. $D$

$p (H | D) = \frac{p (D | H) \times p (H)}{p (D)}$ $p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$
$p(D|H)$ - одна з гіпотез, її також називають ймовірністю. - розподіл гіпотез у нашому Всесвіті гіпотез перед спостереженням даних. Після спостереження за даними ми оновлюємо свої переконання. $p(H)$
$p(D)$ - середнє значення гіпотез, перш ніж ми оновили свої переконання.

Тепер, якщо ми візьмемо обох сторін рівняння Байєса, отримаємо: $-\log$

- \log [p (H | D)] = - \log [p (D | H)] - \log [p (H)] + \log [p (D)]

$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$

Зазвичай важко обчислити. Хороша річ, що це не впливає на результат. Це просто константа нормалізації. $p(D)$

Наприклад, якщо наш набір гіпотез - це купа гауссів з де ми не знаємо , але припустимо, що знає (або принаймні припустимо, що це константа), і більше того, самі гіпотези поширюються як гауссові з тоді підключення всього вище виглядає приблизно так: $p(D|H)$ $p(y|X,\theta)\sim N(\theta X,\sigma)$ $\theta$ $\sigma$ $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$

- \log [p (H | D)] = bunch of constants + \frac{1}{2} (y - θ X)^{2} + \frac{1}{2} α | | θ | |^{2} + c o n s t a n t

$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$

Тепер, якщо мінімізувати цей вираз, ми знаходимо гіпотезу з найбільшою ймовірністю. Константи не впливають на мінімізацію. Це вираз у вашому запитанні.

Той факт, що ми використовували гаусівців, не змінює факту регуляризації додатково. Він повинен бути адитивним (в лог-терміні або мультиплікативним у ймовірності), іншого вибору немає. Що зміниться, якщо ми будемо використовувати інші дистрибутиви - це компоненти додавання. Надана вами функція витрат / збитків є оптимальною для конкретного сценарію гауссів.

— Cagdas Ozgenc
джерело

Ей, Кагдас, дякую за пояснення. Я не розумів перетворення останнього рівняння на RHS. Чи можете ви вказати на якийсь ресурс, щоб я зрозумів цю частину чіткіше

— Ітачі

7

Хребет - це дуже зручна рецептура. На відміну від імовірнісних відповідей, ці відповіді не дають жодної інтерпретації оцінки, але натомість пояснює, чому хребет - це стара і очевидна формулювання.

У лінійній регресії нормальні рівняння дають $\hat{\theta} = (X^TX)^{-1} X^T y$

Але, матриця іноді не повертається; один з способів , щоб налаштувати його, додаючи невеликий елемент до діагоналі: . $X^TX$ $X^TX + \alpha I$

Це дає рішення: ; тоді не вирішує початкову проблему, а замість неї задачу. $\tilde{\theta} = (X^TX + \alpha I)^{-1} X^T y$ $\tilde{\theta}$

— wpof
джерело

3

Вкажіть, будь ласка, відповіді, на які ви звертаєтесь. Впорядкованість рухатиметься навколо того, як голоси накопичуються так "вище", за своєю суттю неоднозначні.

— gung - Відновіть Моніку

1

Я думаю, що є більш інтуїтивна причина, чому ми не можемо помножити на термін регуляризації.

Давайте переведемо нашу функцію штрафу до функції звичайного штрафу, помноженої на термін регуляризації, як ви запропонували.

J (θ) = (\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}) α ‖ θ ‖_{2}^{2}

$J(θ)=(\frac{1}{2}(y−θX^T)(y−θX^T)^T)α‖θ‖^2_2$

Тут ми створюємо глобальний мінімум функції штрафу, де . У цьому випадку наша модель може створювати великі помилки між прогнозуванням і даними, але це не має значення, якщо вага параметрів моделі дорівнює нулю, наша штрафна функція дорівнює нулю . $α‖θ‖^2_2=0$ $J(θ=0)=0$

Оскільки, якщо наша модель не є абсолютно досконалою, термін ніколи не може бути нульовим (ймовірність існування множини θ щоб зробити нашу модель «досконалою» незначною для реальних даних), то наша модель завжди повинна прагнути до рішення θ = 0. $(\frac{1}{2}(y−θX^T)(y−θX^T)^T)$

Це те, що воно повернеться, якщо не зациклюється на місцевому мінімумі десь.

— Джеймс Фултон
джерело