Коли регуляризація L1 працюватиме краще, ніж L2 і навпаки?


30

Примітка. Я знаю, що L1 має властивість вибору функцій. Я намагаюся зрозуміти, яку вибрати, коли вибір функції абсолютно не має значення.

  1. Як вирішити, яку регуляризацію (L1 або L2) використовувати?
  2. Які плюси і мінуси кожної регуляризації L1 / L2?
  3. Чи рекомендується 1-й зробити вибір функції за допомогою L1 і потім застосувати L2 до цих вибраних змінних?

2
Зауважте, що "Вибір функції L1" слід швидше називати регуляризацією простору функцій; Є багато способів кращих методів вибору функцій, що розуміються як отримання інформації, що стосується модельованої проблеми.

@mbq: Мені цікаво, які "набагато кращі методи" ви мали на увазі тут?
Амеба каже: Відновити Моніку

Відповіді:


31

Як вирішити, яку регуляризацію (L1 або L2) використовувати?

Яка ваша мета? Обидва можуть вдосконалити модельне узагальнення шляхом покарання коефіцієнтів, оскільки риси, протилежні відношенню до результату, можуть «компенсувати» один одного (велике додатне значення врівноважується великим від’ємним значенням). Це може виникнути, коли є колінеарні особливості. Невеликі зміни в даних можуть призвести до різко різних оцінок параметрів (високі оцінки дисперсії). Штраф може обмежити обидва коефіцієнти меншими. (Хасті та ін., Елементи статистичного навчання , 2-е видання, стор. 63)

Які плюси і мінуси кожної регуляризації L1 / L2?

Регуляризація L1 може вирішити проблему мультиколінеарності, обмеживши норму коефіцієнта та встановивши деякі значення коефіцієнта до 0. Обчислювально, регресія Лассо (регресія з покаранням L1) є квадратичною програмою, яка потребує вирішення деяких спеціальних інструментів. Якщо у вас більше функцій, ніж спостережень , ласо збереже не більше ненульових коефіцієнтівNN . Залежно від контексту, це може бути не те, що ви хочете.

Регуляризація L1 іноді використовується як метод вибору ознак. Припустимо, у вас є якась сувора обмеження кількості функцій, які ви можете використовувати (адже збір даних для всіх функцій дорогий, або у вас є жорсткі інженерні обмеження щодо того, скільки значень ви можете зберігати тощо). Ви можете спробувати налаштувати штраф L1, щоб досягти потрібної кількості ненульових функцій.

Регуляризація L2 може вирішити проблему мультиколінеарності, обмежуючи норму коефіцієнтів і зберігаючи всі змінні. Навряд чи можна оцінити коефіцієнт рівно 0. Це не обов'язково є недоліком, якщо тільки з певних причин важливий розріджений коефіцієнт.

У режимі регресії це "класичне" рішення проблеми оцінки регресії з більшою кількістю функцій, ніж спостереження. Регуляризація L2 може оцінити коефіцієнт для кожної ознаки, навіть якщо є більше особливостей, ніж спостереження (дійсно, це була оригінальна мотивація "регресії хребта").

В якості альтернативи, еластична сітка дозволяє регулювати L1 і L2 як особливі випадки. Типовим випадком використання для науковця даних у промисловості є те, що ви просто хочете вибрати найкращу модель, але не обов’язково дбати, чи вона штрафується за допомогою L1, L2 або обох. Еластична сітка приємна в таких ситуаціях.

Чи рекомендується 1-й зробити вибір функції за допомогою L1 і потім застосувати L2 до цих вибраних змінних?

Я не знайомий з публікацією, яка пропонує газопровід L1-потім-L2, але це, мабуть, лише незнання з мого боку. Здається, в цьому нічого поганого. Я б провів огляд літератури.

Існує кілька прикладів подібних "поетапних" трубопроводів. Одне - "розслаблене ласо", яке двічі застосовує регресію ласо , один раз для вибору з великої групи до невеликої групи функцій, а друге для оцінки коефіцієнтів для використання в моделі. При цьому використовується перехресне підтвердження на кожному кроці для вибору розміру штрафу. Аргументація полягає в тому, що на першому кроці ви перехрещуєтесь і, швидше за все, обираєте велике покарання для викриття неактуальних прогнозів; на другому кроці ви перехрещуєте валідацію і, швидше за все, виберете менший штраф (а значить і більший коефіцієнт). Про це коротко йдеться в « Елементах статистичного навчання» з посиланням на Ніколая Майнсхаузена («Розслаблений Лассо». Обчислювальна статистика та аналіз даних Том 52, випуск 1, 15 вересня 2007 р., С. 374-393).

Користувач @amoeba також пропонує трубопровід L1-потім-OLS; це може бути приємно, тому що у нього є лише 1 гіперпараметр на величину штрафу L1, тому менше необхідності буде потрібно.

Однією з проблем, яка може виникнути при будь-якому "поетапному" конвеєрі аналізу, який виконує деякі етапи, а потім деякі інші кроки окремо, є те, що між цими різними алгоритмами немає "видимості", тому один процес успадковує будь-яке прослуховування даних, що відбулося на попередніх кроках. Цей ефект не є незначним; погано продумане моделювання може призвести до сміття.

Одним із способів захистити від побічних ефектів, що відслідковуються даними, є перехресне підтвердження всіх варіантів. Однак збільшені обчислювальні витрати можуть виявитися непомітними.


Вибачте, що я не дотримувався відповіді до мого 3-го пункту. Ви можете пояснити?
GeorgeOfTheRF

1
Вся справа в належному обліку оптимізму. З тієї ж причини, що ми вимірюємо продуктивність за вибірковими даними, необхідно зробити всі етапи фільтрації / попередньої обробки таким чином, що не дозволяє витік інформації між кроками. Якщо ви зробите вибір функції для всього набору даних, а потім виконаєте деякий аналіз, ви знайдете сигнал у шумі.
Sycorax каже, що повернеться до Моніки

Добре. Тоді який рекомендований підхід до вибору функцій перед запуском моделі ML?
GeorgeOfTheRF

3
Моя рекомендація - "не робити". Ознайомтеся з прикладом того, як це може зіпсуватись . (Це вам на користь, оскільки ви зможете накопичити додатковий представник у новому запитанні.)
Sycorax каже, що відновіть Моніку

3
(+1) Я не бачив, щоб L1, за яким ішов L2, обговорювався в літературі, але це має для мене сенс. Є L1 з наступним OLS (він же "LARS-OLS гібрид") і L1 з наступним за L1 (розслаблене ласо), так що можна також розглянути L1 з наступним L2. Поки обидва гіперпараметри мають перехресну валідацію, це має бути життєздатною стратегією регуляризації.
амеба каже, що повернеться Моніка

19

Взагалі кажучи, якщо ви хочете оптимального прогнозування, використовуйте L2. Якщо ви хочете балуватись в якійсь жертві передбачуваної дискримінації, використовуйте L1. Але зауважте, що парсифікація може бути ілюзорною, наприклад, повторення процесу ласо за допомогою завантажувального інструменту часто виявить значну нестабільність у списку ознак, "вибраних", особливо коли предиктори співвідносяться між собою.


"Оптимальне прогнозування" - Ви маєте на увазі, що L2 в цілому дає кращу точність невидимих ​​даних?
GeorgeOfTheRF

3
Так, особливо що стосується прогностичної дискримінації.
Френк Харрелл

1
L2L1

2
L2L1

Класно, дякую за роз’яснення. Це має сенс. (Так, ви маєте рацію; я пов'язую PD з заходами, що стосуються ймовірності правильної класифікації та / або впорядкування предметів з точки зору ризику, тому я швидко сказав "завдання з класифікації"; моє погано, я повинен бути обережнішим.)
usεr11852 повідомляє Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.