Що таке регуляризація еластичної сітки, і як вона вирішує недоліки Ріджа ( ) та Лассо ( )?


35

Чи завжди переважна регуляризація еластичної сітки перед Lasso & Ridge, оскільки, здається, вирішує недоліки цих методів? Що таке інтуїція та яка математика за еластичною сіткою?


6
Ознайомтеся з Хасті та ін. "Елементи статистичного навчання" глави 3 та 18 (пошук "еластична сітка").
Річард Харді

Відповіді:


42

1. Який спосіб є кращим?

Так, еластична сітка завжди віддається перевазі регресії ласо і конька, оскільки вона вирішує обмеження обох методів, а також включає кожен як особливий випадок. Отже, якщо рішення гребеня чи ласо є справді найкращим, то будь-яка хороша процедура вибору моделі визначить це як частину процесу моделювання.

У коментарях до мого поста було вказано, що переваги еластичної сітки не є кваліфікованими. Я наполягаю на своїй переконанні, що загальна регресія пружної сітки все ще є перевагою перед регуляризацією або самостійно. Зокрема, я думаю, що суперечки між собою та іншими безпосередньо пов'язані з тим, які припущення ми готові зробити щодо процесу моделювання. За наявності чітких знань про основні дані одні методи віддаватимуть перевагу іншим. Однак мої переваги до еластичної сітки кореняться в моєму скептицизмі, що впевнено знаю, що або - це справжня модель.L1L2L1L2

  1. Претензія: Попередні знання можуть унеможливити одну з необхідностей використання регресії еластичної сітки.

Це дещо кругле. Пробачте, якщо це дещо гліб, але якщо ви знаєте, що LASSO (хребет) - найкраще рішення, то ви не запитаєте себе, як правильно моделювати його; ви просто підходите до моделі LASSO (гребеня). Якщо ви абсолютно впевнені, що правильна відповідь - регресія LASSO (гребеня), то ви чітко переконані, що не було б причин витрачати час на встановлення еластичної сітки. Але якщо ви трохи менше впевнені, чи LASSO (хребет) є правильним способом продовження, я вважаю, що має сенс оцінити більш гнучку модель та оцінити, наскільки сильно дані підтримують попередню віру.

  1. Заява: Помірно великі дані не дозволять виявити рішення або як бажано, навіть у випадках, коли рішення або є справжньою моделлю.L1L2L1L2

Це теж правда, але я думаю, що це кругова причина з аналогічної причини: якщо ви оцінили оптимальне рішення і знайдете, що то це модель, яку підтримують дані. З одного боку, так, ваша орієнтовна модель не є справжньою моделлю, але я мушу задуматися, як можна було знати, що справжня модель є (або ) перед будь-якою оцінкою моделі. Можуть бути домени, в яких ви маєте такі попередні знання, але моя професійна робота не одна з них.α{0,1},α=1α=0

  1. Претензія: Введення додаткових гіперпараметрів збільшує обчислювальні витрати на оцінку моделі.

Це актуально лише за наявності обмежених часових / комп’ютерних обмежень; інакше це просто неприємність. GLMNET - це золотий стандартний алгоритм для оцінки еластичних чистих рішень. Користувач надає деяке значення альфа, і він використовує властивості тракту рішення регуляризації для швидкого оцінювання сімейства моделей для різних значень величини пеналізації , і він часто може оцінити це сімейство рішень швидше, ніж оцінювати лише одне рішення для конкретного значення . Так, так, використання GLMNET передає вас домену використання методів сітки в стилі сітки ( повторіть деякі значення і дозвольте GLMNET спробувати різні s), але це досить швидко.λλαλ

  1. Претензія: Поліпшені показники еластичної сітки над LASSO або регресія конькового каналу не гарантуються

Це правда, але на етапі, коли можна замислитись, який метод застосувати, не буде відомо, який з еластичної сітки, гребеня чи LASSO є найкращим. Якщо однією з причин того, що найкращим рішенням має бути LASSO або регресія хребта, то ми знаходимось в області претензії (1). Якщо ми все ще не впевнені, що найкраще, тоді ми можемо протестувати рішення LASSO, гребеня та еластичні сітки та зробити вибір остаточної моделі в цей момент (або, якщо ви академік, просто напишіть свій документ про всі три ). Ця ситуація попередньої невизначеності або поставить нас у область претензії (2), де справжньою моделлю є LASSO / ridge, але ми цього не знали достроково, і ми випадково вибираємо неправильну модель через погано визначені гіперпараметри, або еластична сітка насправді найкраще рішення.

  1. Претензія: Вибір гіперпараметра без перехресної перевірки є дуже упередженим та схильним до помилок .

Правильна перевірка моделі є невід'ємною частиною будь-якого підприємства машинного навчання. Валідація моделі теж є дорогим кроком, тому тут слід намагатися мінімізувати неефективність - якщо одна з цих неефективностей безперервно намагається спробувати значення, які, як відомо, марні, може бути одна пропозиція зробити це. Так, будь ласка, зробіть це, якщо вам подобається чітка заява про те, як ви влаштовуєте свої дані - але ми повернулися до території претензій (1) та претензії (2).α

2. Яка інтуїція та математика за еластичною сіткою?

Я настійно пропоную прочитати літературу з цих методів, починаючи з оригінального паперу на гумці. Папір розвиває інтуїцію та математику, і вона легко читається. Відтворювати його тут було б лише на шкоду поясненням авторів. Але підсумок високого рівня полягає в тому, що еластична сітка - це опукла сума штрафних та штрафних покарань, тому об'єктивна функція для моделі помилки Гаусса виглядає як квадратична помилка

Залишкова середня квадратична помилка+αГряда пенальті+(1-α)LASSO штраф

дляα[0,1].

Хуей Зу і Тревор Хасті. " Регулялізація та зміна вибору через еластичну сітку ." JR Статистика. Соц., Т. 67 (2005), ч. 2., с. 301-320.

Річард Харді вказує, що це детальніше розроблено в Hastie et al. "Елементи статистичного навчання" глави 3 та 18.

3. Що робити, якщо додати додаткові норми ?Lq

Це питання, поставлене до мене в коментарях:

Дозвольте запропонувати ще один аргумент проти вашої точки зору, що еластична сітка рівномірно краща, ніж ласо або конька. Уявіть, що ми додамо ще одне покарання до функції еластичної чистої вартості, наприклад, вартість з гіперпараметром . Я не думаю, що щодо цього є багато досліджень, але я б сподівався на те, що якщо ви зробите пошук перехресної перевірки на сітці 3d-параметрів, то ви отримаєте як оптимальне значення. Якщо так, то ви б заперечували, що завжди корисно включати вартість також.L3γγ0L3

Я розумію, що дух питання: "Якщо це так, як ви заявляєте, і два штрафи хороші, чому б не додати ще одне?" Але я думаю, що відповідь полягає в тому, чому ми в першу чергу регулюємось.

L1 регуляризація має тенденцію до отримання розріджених розчинів, але також має тенденцію до вибору ознаки, найбільш сильно корельованої з результатом, та нулю решти. Більше того, у наборі даних із спостереженнями він може вибрати не більше ознак. регуляризація підходить для вирішення проблемних проблем, що виникають внаслідок сильно (або ідеально) співвіднесених особливостей. У наборі даних із функціями регуляризація може бути використана для унікальної ідентифікації моделі у випадку .ннL2pL2p>н

Відкидаючи будь-яку з цих проблем, регуляризована модель все ще може перевищувати модель ML, оскільки властивості усадки оцінювачів "песимістичні" та коефіцієнти витягування до 0.

Але мені невідомі статистичні властивості регуляризації . У проблемах, над якими я працював, ми, як правило, стикаємося з обома проблемами: включення погано співвіднесених ознак (гіпотези, які не підтверджуються даними) та колілінійних ознак.L3

Дійсно, є вагомі причини того, що покарання і щодо параметрів є єдиними, які зазвичай використовуються.L1L2

В Чому ми бачимо лише регуляризацію та але не інші норми? L1L2, @whuber пропонує цей коментар:

Я спеціально не досліджував це питання, але досвід подібних ситуацій свідчить про те, що може бути хороша якісна відповідь: всі норми, які є другими диференційованими за походженням, будуть локально еквівалентні один одному, серед яких норма є стандартом . Усі інші норми не будуть диференційовані за походженням і якісно відтворює їх поведінку. Що охоплює гаму. Насправді, лінійна комбінація норми і наближає будь-яку норму до другого порядку за початком - і саме це має найбільше значення в регресії без залишкових залишків.L2L1L1L2

Таким чином, ми можемо ефективно охоплювати діапазон варіантів, які, можливо, можуть бути передбачені нормами вигляді комбінацій норм та - і все це, не вимагаючи додаткової настройки гіперпараметрів.LqL1L2


4
Сказати, що "еластична сітка завжди віддається перевазі в порівнянні з регресією ласо і конька" може бути трохи надто сильною. У невеликих або середніх зразках еластична сітка може не вибирати чистий LASSO або чистий розчин хребта, навіть якщо перший або останній насправді є відповідним. З огляду на міцні попередні знання, може бути сенсом вибрати ЛАССО або конька замість еластичної сітки. Однак за відсутності попередніх знань кращим рішенням має бути еластична сітка.
Річард Харді

4
α

7
γγ0

5
L1L2L3

3
"Ми можемо протестувати рішення LASSO, гребеня та еластичні сітки та зробити вибір остаточної моделі" - ми можемо, але, звичайно, сама по собі є новою процедурою, оптимізуючи критерій, що підлягає випадковій помилці, яка може або не може працювати краще ніж LASSo, або регресія хребта, або еластична сітка.
Scortchi

11

Я, як правило, згоден з відповіддю @Sycorax, але хотів би додати певну кваліфікацію.

Сказати, що "еластична сітка завжди віддається перевазі в порівнянні з регресією ласо і конька" може бути трохи надто сильною. У невеликих або середніх зразках еластична сітка може не вибирати чистий LASSO або чистий розчин хребта, навіть якщо перший або останній насправді є відповідним. З огляду на міцні попередні знання, може бути сенсом вибрати ЛАССО або конька замість еластичної сітки. Однак за відсутності попередніх знань кращим рішенням має бути еластична сітка.

Крім того, еластична сітка обчислюється дорожче, ніж LASSO або конька, оскільки відносну вагу LASSO проти конька потрібно вибирати за допомогою перехресної перевірки. Якщо розумна сітка альфа-значень становить [0,1] з розміром кроку 0,1, це означатиме, що еластична сітка приблизно в 11 разів дорожче обчислювальної величини, ніж LASSO або гребінь. (Оскільки LASSO та хребет не мають однакової обчислювальної складності, результат - лише груба здогадка.)


1
І справді, LASSO або регресія хребта може не дати покращити прогнозовану ефективність порівняно з неосвоєною регресією.
Scortchi

4
Який тип попередніх знань призведе до того, щоб віддати перевагу Лассо, а який би попередній знання призвів до того, щоб віддати перевагу хребту?
Амеба каже: Відновити Моніку

4
@amoeba, якщо правдоподібно, що всі регресори є релевантними, але вони сильно корелюються, тоді не потрібен вибір змінних, і, таким чином, можна віддати перевагу гребню. Якщо, з іншого боку, деякі регресори, ймовірно, абсолютно не мають значення (але ми просто не знаємо, які з них), то потрібен вибір змінних, і LASSO може бути кращим. Ці знання будуть взяті з предметної області. Я думаю, що у Hastie та ін. Можуть бути приклади. «Елементи статистичного навчання» або в суміжній літературі я просто не пам’ятаю, де це читав.
Річард Харді

1
@kjetilbhalvorsen, дякую, це було корисно.
Річард Харді

1
@amoeba, хребет краще для співвіднесених даних, де L2 заохочує багато невеликих ваг (усереднення) над входами. Класичний приклад - це повторні вимірювання з незалежним шумом (наприклад, обробка сигналу або, наприклад, декілька іспитів одного предмета), тоді як l1 - краще, коли 1 вар домінує над іншим, класичний випадок - це ієрархічні дані: де коефіцієнти слід оцінювати на найвищому рівні в ієрархії.
seanv507
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.