Навіщо використовувати регуляризацію L1 над L2?


10

Проведення лінійної регресійної моделі за допомогою функції втрат, чому я повинен використовувати L1 замість L2 регуляризація?

Чи краще у запобіганні надмірного пристосування? Це детерміновано (тому завжди унікальне рішення)? Чи краще при виборі функцій (тому що виробляються рідкісні моделі)? Чи розподіляє ваги серед особливостей?


2
L2 не робить змінний вибір, тому L1, безумовно, краще в цьому.
Майкл М

Відповіді:


5

В основному, ми додаємо термін регуляризації для того, щоб запобігти наближенню коефіцієнтів до перевищення.

Різниця між L1 і L2 - L1 - це сума ваг, а L2 - лише сума квадрата ваг.

L1 не може використовуватися в градієнтних підходах, оскільки він не відрізняється на відміну від L2

L1 допомагає виконувати вибір функцій у розріджених просторах функцій. Вибір функції полягає в тому, щоб знати, які функції корисні, а які - зайві.

Різниця між їх властивостями може бути зведена як:

l1 vs l2


1
Неправда, що "L1 не можна використовувати в градієнтних підходах". Керас, наприклад, підтримує це . Так, похідна завжди постійна, тому ускладнює спуск градієнта важче знайти мінімум. Але регуляризація - це невеликий термін в межах функції втрат, тому це не дуже важливо в грандіозній схемі речей.
Рікардо Крус

-1

L2 має одну дуже важливу перевагу для L1, а саме - інваріантність обертання та масштабу.

Це особливо важливо в географічному / фізичному застосуванні.

Скажіть, ваш технік випадково встановив ваш датчик в ангелі 45 градусів, L1 буде постраждалим, тоді як L2 (евклідова відстань) залишиться колишнім.


4
Це зовсім не відповідь на питання.
kbrose

Чи можете ви пояснити інваріантність?
aneesh joshi

@Chati, питання стосується регуляризації. Ви плутаєте його з іншими способами використання функцій 1-норми та 2-норми у функціях втрати.
Рікардо Крус
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.