Як вирішити, яку регуляризацію (L1 або L2) використовувати?
Яка ваша мета? Обидва можуть вдосконалити модельне узагальнення шляхом покарання коефіцієнтів, оскільки риси, протилежні відношенню до результату, можуть «компенсувати» один одного (велике додатне значення врівноважується великим від’ємним значенням). Це може виникнути, коли є колінеарні особливості. Невеликі зміни в даних можуть призвести до різко різних оцінок параметрів (високі оцінки дисперсії). Штраф може обмежити обидва коефіцієнти меншими. (Хасті та ін., Елементи статистичного навчання , 2-е видання, стор. 63)
Які плюси і мінуси кожної регуляризації L1 / L2?
Регуляризація L1 може вирішити проблему мультиколінеарності, обмеживши норму коефіцієнта та встановивши деякі значення коефіцієнта до 0. Обчислювально, регресія Лассо (регресія з покаранням L1) є квадратичною програмою, яка потребує вирішення деяких спеціальних інструментів. Якщо у вас більше функцій, ніж спостережень , ласо збереже не більше ненульових коефіцієнтівNN . Залежно від контексту, це може бути не те, що ви хочете.
Регуляризація L1 іноді використовується як метод вибору ознак. Припустимо, у вас є якась сувора обмеження кількості функцій, які ви можете використовувати (адже збір даних для всіх функцій дорогий, або у вас є жорсткі інженерні обмеження щодо того, скільки значень ви можете зберігати тощо). Ви можете спробувати налаштувати штраф L1, щоб досягти потрібної кількості ненульових функцій.
Регуляризація L2 може вирішити проблему мультиколінеарності, обмежуючи норму коефіцієнтів і зберігаючи всі змінні. Навряд чи можна оцінити коефіцієнт рівно 0. Це не обов'язково є недоліком, якщо тільки з певних причин важливий розріджений коефіцієнт.
У режимі регресії це "класичне" рішення проблеми оцінки регресії з більшою кількістю функцій, ніж спостереження. Регуляризація L2 може оцінити коефіцієнт для кожної ознаки, навіть якщо є більше особливостей, ніж спостереження (дійсно, це була оригінальна мотивація "регресії хребта").
В якості альтернативи, еластична сітка дозволяє регулювати L1 і L2 як особливі випадки. Типовим випадком використання для науковця даних у промисловості є те, що ви просто хочете вибрати найкращу модель, але не обов’язково дбати, чи вона штрафується за допомогою L1, L2 або обох. Еластична сітка приємна в таких ситуаціях.
Чи рекомендується 1-й зробити вибір функції за допомогою L1 і потім застосувати L2 до цих вибраних змінних?
Я не знайомий з публікацією, яка пропонує газопровід L1-потім-L2, але це, мабуть, лише незнання з мого боку. Здається, в цьому нічого поганого. Я б провів огляд літератури.
Існує кілька прикладів подібних "поетапних" трубопроводів. Одне - "розслаблене ласо", яке двічі застосовує регресію ласо , один раз для вибору з великої групи до невеликої групи функцій, а друге для оцінки коефіцієнтів для використання в моделі. При цьому використовується перехресне підтвердження на кожному кроці для вибору розміру штрафу. Аргументація полягає в тому, що на першому кроці ви перехрещуєтесь і, швидше за все, обираєте велике покарання для викриття неактуальних прогнозів; на другому кроці ви перехрещуєте валідацію і, швидше за все, виберете менший штраф (а значить і більший коефіцієнт). Про це коротко йдеться в « Елементах статистичного навчання» з посиланням на Ніколая Майнсхаузена («Розслаблений Лассо». Обчислювальна статистика та аналіз даних Том 52, випуск 1, 15 вересня 2007 р., С. 374-393).
Користувач @amoeba також пропонує трубопровід L1-потім-OLS; це може бути приємно, тому що у нього є лише 1 гіперпараметр на величину штрафу L1, тому менше необхідності буде потрібно.
Однією з проблем, яка може виникнути при будь-якому "поетапному" конвеєрі аналізу, який виконує деякі етапи, а потім деякі інші кроки окремо, є те, що між цими різними алгоритмами немає "видимості", тому один процес успадковує будь-яке прослуховування даних, що відбулося на попередніх кроках. Цей ефект не є незначним; погано продумане моделювання може призвести до сміття.
Одним із способів захистити від побічних ефектів, що відслідковуються даними, є перехресне підтвердження всіх варіантів. Однак збільшені обчислювальні витрати можуть виявитися непомітними.