Чому ми бачимо лише регуляризацію

Мені просто цікаво, чому зазвичай є лише регуляризація норм $L_1$ і $L_2$ . Чи є докази того, чому це краще?

lasso regularization ridge-regression

(+1) Я не досліджував це питання спеціально, але досвід подібних ситуацій дозволяє припустити, що є хороша якісна відповідь: всі норми, які є другими диференційованими за походженням, будуть локально еквівалентні один одному, з яких норма

L^{2}

$L^2$ є стандартом. Всі інші норми не будуть диференційовані за походженням і

L^{1}

$L^1$ якісно відтворює їх поведінку. Що охоплює гаму. Фактично, лінійна комбінація норми

L^{1}

$L^1$ і

L^{2}

$L^2$ наближає будь-яку норму до другого порядку за початком - і саме це має найбільше значення в регресії без залишкових залишків.

— качан

Так: це по суті теорема Тейлора.

— whuber

Припущення питання помилкове: використовуються інші

ℓ_{p}

$\ell_p$ -норми, хоча і набагато рідше.

— Firebug

Лінійну комбінацію, яку згадує @whuber, часто називають еластичною сіткою .

— Лука Сіті

Крім того , серед норм Lp,

L^{\infty}

$L^\infty$ також отримує багато пробігу.

— користувач795305

Відповіді:

Окрім коментарів @ whuber (*).

Книга Hastie et al. Статистичне навчання з Sparsity обговорює це. Вони також використовують те, що називається $L_0$ "нормою" (лапки, тому що це не норма в суворому математичному сенсі (**)), яка просто підраховує кількість ненульових компонентів вектора.

У цьому сенсі норма використовується для вибору змінної, але вона разом з нормами з не опукла, тому її важко оптимізувати. Вони стверджують (я думаю, що аргумент походить від Донохое при стисненому зондуванні), що норма , тобто ласо, є найкращою конвексифікацією "норми" ("найближче опукле релаксація найкращого вибору підмножини"). У цій книзі також згадуються деякі напрямки використання інших норм . Одинична куля в -нормі з виглядає так $L_0$ $l_q$ $q<1$ $L_1$ $L_0$ $L_q$ $l_q$ $q<1$

(зображення з Вікіпедії), але мальовниче пояснення того, чому ласо може надати змінний вибір

Це зображення з наведеної вище книги. Ви можете бачити, що у випадку з ласо (одинична куля, намальована як ромб) набагато більше ймовірності того, що еліпсоїдальні (сума квадратів) контурів спочатку торкнуться ромба в одному з кутів. У невипуклому випадку (фігура кульки першого блоку) навіть більше шансів, що перший дотик між еліпсоїдом та одиничною кулькою буде в одному з кутів, тому цей випадок зробить акцент на змінному виді навіть більше, ніж на ласо.

$l_q$ $q < 1$

(*) Для повноти я копіюю тут коментарі:

$L_2$ $L_1$ $L_1$ $L_2$

$l_0$ $\alpha \ge 0$ $\| \alpha x \| = \alpha \| x \|$

— kjetil b halvorsen
джерело

@kjetilbhalvorsen Дякую за глибоку відповідь. Я вибираю нечасті надписи, щоб відповідати питанню та заголовку. Звичайно, ви можете написати це так, як вам зручніше.

— Ферді

@kjetilbhalvorsen Чи можете ви трохи розширити коментар Whuber? Добре відомо, що норма не є диференційованою за походженням (наприклад, розглянемо ). Не ясно також, що розуміється під "локальною еквівалентністю" норм. Потрібно, по крайней мере, посилання.

L^{2}

$L^2$

x \mapsto | x |

$x \mapsto |x|$

— Олів’є

@Olivier Енорм відрізняється за походженням, ви думаєте про .

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

— Firebug

@Firebug Ні. Я думаю про норму в 1 вимірі, який є таким же, як норма. Я щось пропускаю?

L^{2}

$L^2$

L^{1}

$L^1$

— Олів'є

@Olivier О, ти насправді маєш рацію. Я неправильно зрозумів, тому що насправді використовується квадрат , і він скрізь відрізняється.

ℓ_{2}

$\ell_2$

— Firebug

Я думаю, що відповідь на питання багато в чому залежить від того, як ви визначаєте "краще". Якщо я правильно трактую, ви хочете знати, чому саме такі норми з’являються так часто в порівнянні з іншими варіантами. У цьому випадку відповідь - простота. Інтуїція, що стоїть за регуляризацією, полягає в тому, що я маю деякий вектор, і я хотів би, щоб цей вектор був "маленьким" в якомусь сенсі. Як ви описуєте розмір вектора? Ну, у вас є вибір:

Ви порахуєте, скільки елементів у нього є ? $(L_0)$
Ви додаєте всі елементи ? $(L_1)$
Чи вимірюєте ви, наскільки "довгою" є стрілка ? $(L_2)$
Чи використовуєте ви розмір найбільшого елемента ? $(L_\infty)$

Ви можете використовувати альтернативні норми, такі як , але вони не мають дружніх, фізичних тлумачень, як описані вище. $L_3$

У цьому списку норма має приємні аналітичні рішення закритої форми для таких речей, як проблеми з найменшими квадратами. До того, як ви мали необмежену обчислювальну потужність, інакше не вдалося б просунутись в іншому напрямку. Я б припускав, що візуальний «довжина стріли» також є більш привабливим для людей, ніж інші міри розміру. Незважаючи на те, що обрана вами норма регуляризації впливає на типи залишків, які ви отримуєте з оптимальним рішенням, я не думаю, що більшість людей це: а) знають про це, або б) глибоко враховують це при формулюванні своєї проблеми. На даний момент я думаю, що більшість людей продовжують використовувати оскільки це "те, що всі роблять". $L_2$ $L_2$

Аналогією була б експоненціальна функція, - це виявляється буквально скрізь у фізиці, економіці, статистиці, машинному навчанні чи будь-якій іншій області, керованій математикою. Я назавжди замислювався над тим, чому все в житті, здавалося, описується експонентами, поки я не зрозумів, що ми, люди, просто не маємо стільки хитрощів у рукаві. Експоненти мають дуже зручні властивості для алгебри та обчислення, тому вони в кінцевому підсумку стають функцією №1 в будь-якій панелі інструментів математика, коли намагаються щось моделювати в реальному світі. Можливо, такі речі, як час декогерентності, "краще" описуються поліномом високого порядку, але з алгеброю порівняно важче це зробити, і в кінці дня важливо те, що ваша компанія заробляє гроші - експоненціальна простіший і досить хороший. $e^x$

В іншому випадку вибір норми має дуже суб'єктивні наслідки, і саме ви, як людина, яка заявляє про проблему, визначити, що ви віддаєте перевагу оптимальному вирішенню. Вас більше хвилює те, щоб усі компоненти вашого вектору рішення були схожими за величиною або щоб розмір найбільшого компонента був якомога меншим? Цей вибір буде залежати від конкретної проблеми, яку ви вирішуєте.

— RedPanda
джерело

Основна причина бачення норм та полягає в тому, що вони охоплюють більшість поточних заявок. Наприклад, норма також називається нормою таксикаб , ґратчастою прямолінійною сполучною нормою, включає абсолютну величину величини . $L_1$ $L_2$ $L_1$

$L_2$ Норми є, крім найменших квадратів, евклідовими відстанями в просторі $n$ , а також комплексною змінною нормою . Крім того, регуляризація Тихонова і регресія хребта , тобто додатки, що мінімізують , часто вважаються нормами . $\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$ $L_2$

Вікіпедія дає інформацію про ці та інші норми . Варто згадати . Узагальнену норму норму називають також рівномірною нормою . $L_0$ $L_p$ $L_\infty$

— Карл
джерело