Чому втрата норми L2 має унікальне рішення, а втрата норми L1, можливо, має декілька рішень?


16

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

Якщо ви подивитеся на верхню частину цього повідомлення, письменник зазначає, що норма L2 має унікальне рішення, а норма L1, можливо, має багато рішень. Я розумію це з точки зору регуляризації, але не з точки зору використання норми L1 або норми L2 у функції втрат.

Якщо ви подивитеся на графіки функцій скалярного x (x ^ 2 та | x |), ви можете легко побачити, як обидва мають одне унікальне рішення.


2
"fnx"? ... Будь ласка, редагуйте, щоб зробити це зрозумілішим. Ви маєте на увазі "функції"?
Glen_b -Встановіть Моніку

Відповіді:


25

Розглянемо одновимірну задачу для найпростішого можливого експозиції. (Корпуси вищих розмірів мають подібні властивості.)

Поки обидва |х-мк|і (х-мк)2 мають унікальний мінімум, i|хi-мк|(сума функцій абсолютного значення з різними x-компенсаціями) часто не відбувається. Розглянемо х1=1 і х2=3 :

Сюжет sum_i | x_i - mu |

(Зверніть увагу, незважаючи на мітку на осі x, це дійсно функція мк ; я повинен був би змінити мітку, але я просто залишу її як є)

У більш високих розмірах ви можете отримати області постійного мінімуму з L1 -норою. Там приклад в разі установки ліній тут .

i(хi-мк)2=н(х¯-мк)2+к(х)


L1

Оскільки (за винятком конкретних обставин) у вас зазвичай немає такої гарантії жодних сильно впливових спостережень, я б не назвав регресію L1 надійною.


R код сюжету:

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)

Це чудово. Яке програмне забезпечення ви використовували для виготовлення графіка?
користувач3180

2
Р. Це щойно робиться в базовій графіці. Я додав код до кінця своєї відповіді.
Glen_b -Встановити Моніку

1
Вуа, ніколи не зрозумів, що ти можеш поставити функцію plot. Розум роздувається.
JAD

5

Мінімізація втрат L2 відповідає розрахунку середнього арифметичного, що є однозначним, тоді як мінімізація втрат L1 відповідає обчисленню медіани, що є неоднозначним, якщо в серединний розрахунок включена парна кількість елементів (див. Центральна тенденція: Рішення варіаційних задач ).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.