Коли використовувати методи регуляризації для регресії?

83

За яких обставин слід розглянути можливість використання методів регуляризації (регрес хребта, ласо або найменший кут) замість OLS?

Якщо це допомагає керувати дискусією, головним моїм інтересом є підвищення точності прогнозування.

— NPE
джерело

75

Коротка відповідь: Щоразу, коли ви стикаєтеся з однією з таких ситуацій:

велика кількість змінних або низьке співвідношення немає. спостережень до немає. змінні (включаючи case), $n\ll p$
висока колінеарність,
пошук розрізненого рішення (тобто вибору функції вбудовування при оцінці параметрів моделі), або
облік групувань змінних у великомірних наборах даних.

Регресія хребта, як правило, дає кращі прогнози, ніж рішення OLS, завдяки кращому компромісу між ухилом та дисперсією. Його головний недолік полягає в тому, що всі передбачувачі зберігаються в моделі, тому не дуже цікаво, якщо ви шукаєте парсимонізовану модель або хочете застосувати якийсь вибір функції.

Для досягнення розрідженості ласо є більш доцільним, але це не обов'язково дасть хороші результати за наявності високої колінеарності (було помічено, що якщо прогноктори сильно корелюють, у прогнозуванні роботи ласо домінує регресія хребта). Друга проблема штрафу L1 полягає в тому, що рішення ласо не визначається однозначно, коли кількість змінних перевищує кількість досліджуваних (це не стосується регресії хребта). Останній недолік ласо полягає в тому, що він має тенденцію вибирати лише одну змінну серед групи предикторів з високими парними кореляціями. У цьому випадку існують альтернативні рішення типу групи (тобто домогтися усадки на блоці коваріатів, тобто деякі блоки регресійних коефіцієнтів точно дорівнюють нулю) або злитіласо. Графічний Lasso також пропонує багатообіцяючі можливості для GGMs (див R glasso пакет).

Але, безумовно, критерії еластичної мережі , що є комбінацією штрафних санкцій L1 і L2, досягають як усадки, так і автоматичного вибору змінних, і це дозволяє зберегти змінні у випадку, коли . Після Зу і Хасті (2005) він визначається як аргумент, який мінімізує (понад ) $m>p$ $n\ll p$ $\beta$

L (λ_{1}, λ_{2}, β) = ‖ Y - X β ‖^{2} + λ_{2} ‖ β ‖^{2} + λ_{1} ‖ β ‖_{1}

$L(\lambda_1,\lambda_2,\mathbf{\beta}) = \|Y-X\beta\|^2 + \lambda_2\|\beta\|^2 + \lambda_1\|\beta\|_1$

де і. $\|\beta\|^2=\sum_{j=1}^p\beta_j^2$ $\|\beta\|^1=\sum_{j=1}^p|\beta_j |$

Lasso може бути обчислена за допомогою алгоритму на основі координатного спуску , як описано в недавній роботі Фрідмана і Coll., Регулярізірующего Доріжки узагальнених лінійних моделей з допомогою координатного спуску (JSS, 2010) або алгоритму LARS. В R, то штрафували , Lars або biglars і glmnet пакети корисні пакети; в Python є інструментарій scikit.learn , який має велику документацію про алгоритми, що застосовуються для застосування всіх трьох видів схем регуляризації.

Що стосується загальних посилань, сторінка Лассо містить більшу частину того, що потрібно для початку регресії ласо та технічні деталі щодо L1-штрафу, і це пов'язане питання містить суттєві посилання. Коли я повинен використовувати ласо проти гребеня?

— хл
джерело

1

Що робити, якщо у мене багато спостережень із відносно невеликими змінними, але дуже низьким співвідношенням сигнал-шум? Насправді такий низький рівень, що надмірне обладнання - це справді реальна проблема. Невже регуляризація буде розумною справою, щоб спробувати підвищити точність прогнозування?

— NPE

1

@aix Це залежить від того, що ви насправді називаєте декількома змінними та з якими змінними ви маєте справу. Але я вважаю, що у вашому випадку краще віддати перевагу гряді. Ви також можете подивитися на посилення регресії хребта (Tutz & Binder, 2005). Пеніалізована оцінка ML також була запропонована як вбудований метод для запобігання надмірного пристосування; див., наприклад, Оцінка максимальної ймовірності пені для прогнозування бінарних результатів: Луни КГ, Дондерс А.Р., Стейєрберг Е.В., Гаррелл Ф.Е. J. Clin. Епідеміол. 2004, 57 (12): 1262–70.

— chl

20

Теоретичне обґрунтування використання регресії хребта полягає в тому, що її рішення - це заднє середнє значення, задане нормальним попереднім коефіцієнтом. Тобто, якщо ви переймаєтесь квадратичною помилкою і вірите в нормальний попередній показник, то оцінки хребта є оптимальними.

Аналогічно, оцінка ласо - це задній режим під подвійною експоненцією на ваші коефіцієнти. Це оптимально за функції нульового втрати.

На практиці ці методи, як правило, покращують точність прогнозування в ситуаціях, коли у вас є багато співвідносних змінних і не багато даних. Хоча Оцінювач OLS є найкращим лінійним неупередженим, він сильно відрізняється в цих ситуаціях. Якщо ви дивитесь на відхилення відхилення відхилення, точність прогнозування покращується, оскільки невелике збільшення зміщення більше ніж компенсується великим зменшенням дисперсії.

— ncray
джерело