Норми


13

норма є унікальною (принаймні частково) , тому що знаходиться на кордоні між неопуклі і опуклі. норма є «найбільш розрідженим» опукла норма (правда?). p = 1 L 1L1p=1L1

Я розумію, що норма Евкліда має коріння в геометрії, і вона має чітку інтерпретацію, коли розміри мають однакові одиниці. Але я не розумію, чому він використовується переважно перед іншими реальними числами : ? ? Чому б не використовувати повний безперервний діапазон як гіперпараметр?p > 1 p = 1,5 p = πp=2p>1p=1.5p=π

Що я пропускаю?


1
"Переважно використовується", в яких додатках, зокрема? Норми є всюдисущими в математиці, статистиці та фізиці; в деяких підполях деякі норми є більш поширеними, ніж інші, оскільки вони є більш осмисленими або простішими для роботи. З цієї причини відповіді на це питання, ймовірно, будуть численними та різноманітними (настільки різноманітними, справді, що особисто я вважаю це невиправданим). Тому я зробив це повідомлення "Вікі спільноти" (CW); але якщо ви маєте на увазі конкретну програму або вузьке поле, то, зробивши своє запитання більш точним, слід видалити статус CW.
whuber

Відповіді:


12

Більш математичне пояснення полягає в тому, що простір , що складається з усіх рядів, що сходяться в p-нормі, є лише Гільбертом з і жодного іншого значення. Це означає, що цей простір є повним, і норма цього простору може бути викликана внутрішнім продуктом (подумайте про знайомий крапковий продукт у ), тому з ним трохи приємніше працювати. p = 2 R nlpp=2Rn


4

Ось кілька причин:

  1. Це пов'язано дуже особливим чином із внутрішнім продуктом: це своя подвійна норма (тобто це "самодвійна").
    Це означає, що якщо врахувати всі вектори всередині одиничної кулі , їх максимальний внутрішній добуток із будь-яким вектором є нормою з . Менш вигадливим він задовольняє властивість, що . Жодна інша норма поводиться таким чином.2z2zpx22=xxp

  2. Він має дуже зручний градієнт: Ви дійсно не можете цього перемогти!

    x f(x)22=2 f(x)f(x)

2

Хоча причин може бути набагато більше, але AFAIK p = 2 є кращим з наступних причин:

  • Міра схожості / несхожості: Для р = 2 норма Евкліда дає міру подібності чи несхожості між двома векторами, які потім можуть бути використані для кращого розуміння даних. Більш детальні відповіді на це можна знайти тут .
  • Регуляризація: норма L2 використовується для регуляризації в машинному навчанні, і вона є кращою з двох причин: 1) Легко диференціюється 2) При регуляризації L2 ваги мають тенденцію до зменшення пропорційно вагам. Отже, регуляризація L2 більше санкціонує більші ваги порівняно з меншими вагами.

1

Похибки квадрата в лінійних моделях часто переважні через:

  • ставлення до ортогональності, яке добре поводиться щодо деяких випадкових явищ, що розглядаються як шум (некорельованість)
  • він опуклий і диференційований, неL1
  • це дає алгоритми оптимізації, що простежуються, коли похідна перетворюється на лінійні системи

1p 0 < p < 1L1 часто розглядається як зручне проксі або опукле розслаблення до суворої розрідженості (кількість ненульових термінів), яка є комбінаторно складною, див., Наприклад, для більшості великих недостатньо визначених систем лінійних рівнянь мінімальне рішення також є Найрідкіше рішення1 . Деякі , як правило, використовують , щоб забезпечити більше розрідження, ціною "втрати" опуклості.p0<p<1

Однак міра підрахунку нечутлива до ненульового масштабування. Помноживши вектор на ненульову константу, кількість ненульових доданків залишиться колишньою. Таким чином, є -порядково однорідним, тоді як норми або квазі-норми всі -порядні однорідні. Навіть якщо якимось чином як , ця розбіжність здається мені розривом.0 0 p 1 p0000p1p0p0

Таким чином, дотримуючись норм, деякі розглядають співвідношення норм ( ), таких як , див., Наприклад, посилання у Euclid у Taxicab: Sparse Blind Deconvolution with Smoothed Regularization .1 / 21/21/2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.