Модифікація Лассо для ЛАРС


12

Я намагаюся зрозуміти, як алгоритм Ларса можна модифікувати для генерації Лассо. Поки я розумію LARS, я не в змозі побачити модифікацію Лассо з статті Tibshirani et al. Зокрема, я не бачу, чому умова знаку в тому, що знак ненульової координати має відповідати знаку поточної кореляції. Може хтось, будь ласка, допоможе мені у цьому. Я думаю, я шукаю математичне підтвердження, використовуючи умову KKT для початкової проблеми норми L-1, тобто Лассо. Велике спасибі!


Ви посилаєтесь на stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf ? Це доводиться в лемі 8 розділу 5. Або я неправильно розумію ваше запитання?
Пітер Елліс

1
Я також не впевнений у питанні, але насправді Лассо - це спрощення Ларса: Для Лассо ви шукаєте лише позитивні кореляції між поточною залишковою та рештою базовими функціями, оскільки лише позитивні кореляції призводять до позитивних (~ негативні) коефіцієнти.
Містер Білий

Відповіді:


2

Нехай (розмір ) позначає набір стандартизованих входів, (розмір ) відповіді по центру, (розмір ) ваги регресії та a коефіцієнт штрафування.Xn×pyn×1βp×1λ>0l1

Проблема LASSO потім записує

β=argminβ L(β,λ)L(β,λ)=yXβ22+λβ1

Вирішуючи це для всіх значень виходить так званий шлях регуляризації LASSO .λ>0β(λ)

Для фіксованого значення коефіцієнта покарання (тобто фіксованої кількості активних предикторів = фіксований крок алгоритму LARS) можна показати, що задовольняє (просто запишіть умову стаціонарності KKT, як у цьому відповідь )λβ

λ=2 sign(βa)XaT(yXβ),   aA

з представляє сукупність активних предикторів.A

Оскільки має бути позитивним (це коефіцієнт покарання), зрозуміло, що знак (вага будь-якого ненульового, отже, активного провісника) повинен бути однаковим, ніж у тобто кореляція із залишковою регресією поточної регресії.λβaXaT(yXβ)=XaTr


1

@ Mr._White надав чудове інтуїтивне пояснення головної різниці між ЛАРС та Лассо; Єдине, що я хотів би додати, це те, що ласо - це (як) як підхід до відбору назад, вибиваючи термін на кожному кроці до тих пір, поки існує термін, для якого з цих ("нормалізованих" за ) кореляцій існує. LARS зберігає все там - в основному виконуючи ласо в кожному можливому порядку. Це означає, що в лассо кожна ітерація залежить від того, які терміни вже видалено. X×X

Реалізація Effron ілюструє, що відмінності різняться: lars.R у вихідному pkg для lars . Зауважте крок оновлення матриць матриця і починаючи з рядка 180, і випадання термінів, для яких . Я можу собі уявити деякі дивні ситуації, що виникають із просторів де терміни є неврівноваженими ( та дуже корелюються, але не з іншими, з але не з іншими тощо), порядок вибору може бути досить упередженим.X×Xζζmin<ζcurrentAx1x2x2x3

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.