Навіщо використовувати оцінки Lasso над оцінками OLS для ідентифікованого Лассо підмножини змінних?


26

Для регресії Лассо припустимо, найкраще рішення (наприклад, мінімальна помилка тестування) вибирає функції, так що \ hat {\ beta} ^ {lasso} = \ ліворуч (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ праворуч) .K β л и и про = ( β л з и про 1 , β л з и O 2 , . . . , β л

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

Ми знаємо, що (β^1lasso,β^2lasso,...,β^klasso) є a упереджена оцінка (β1,β2,...,βk) , тож чому ми все-таки приймаємо β^lasso як остаточне рішення, а не більш "розумне" β^new=(β^1:knew,0,...,0) , де β^1:knew - оцінка LS з часткової моделі Lnew(β1:k)=(X1:kβy)(X1:kβy) . ( X1:k позначає стовпці X відповідні k вибраним ознакам).

Коротше кажучи, чому ми використовуємо Lasso як для вибору функції, так і для оцінки параметрів, а не лише для вибору змінної (і залишаючи оцінку для вибраних функцій OLS)?

(Також, що означає, що "Лассо може вибрати не більше n функцій"? n - розмір вибірки.)


1
Це дуже гарне питання. Ви спробували кілька симуляцій, щоб побачити, наскільки результати будуть відрізнятися від стандартного Лассо, якби ви спробували це по-своєму?
Placidia

3
Чи розуміли ви мету "усадки" в LASSO?
Майкл М

6
Ідея полягає у зменшенні оцінок коефіцієнта саме тому, що ви вибрали найбільші. Оцінки найменших квадратів більше не є об'єктивними, якщо ви попередньо зробили вибір функції.
Scortchi

2
Див. Наступне запитання для чудової відповіді на те, "Яку проблему вирішують методи усадки?" stats.stackexchange.com/questions/20295/…
DL Далі

2
Щоб було зрозуміло: Не говорити, що @Scortchi помиляється, але це трохи сіра зона при обговоренні вибору функцій, і я думаю, що це важливий технічний момент, який слід зробити дуже зрозумілим.
ДжонА

Відповіді:


27

Я не вірю, що немає нічого поганого в тому, щоб використовувати LASSO для змінного вибору, а потім використовувати OLS. З " Елементи статистичного навчання " (стор. 91)

... усадка ласо призводить до того, що оцінки ненульових коефіцієнтів зміщуються до нуля, і вони взагалі не відповідають [ Додано Примітка. Це означає, що в міру збільшення розміру вибірки коефіцієнти не збігаються] . Один із підходів до зменшення цього зміщення - запустити ласо для виявлення набору ненульових коефіцієнтів, а потім підключити необмежену лінійну модель до вибраного набору ознак. Це не завжди можливо, якщо вибраний набір великий. Крім того, можна використовувати ласо для вибору набору ненульових предикторів, а потім застосувати ласо ще раз, але використовуючи лише вибрані предиктори з першого кроку. Це відомо як розслаблене ласо(Meinshausen, 2007). Ідея полягає у використанні перехресної перевірки для оцінки початкового параметра штрафу для ласо, а потім знову для другого параметра штрафу, застосованого до вибраного набору прогнозів. Оскільки змінні на другому кроці мають меншу "конкуренцію" від шумових змінних, перехресне підтвердження буде, як правило, вибирати менше значення для [штрафний параметр], а значить, їх коефіцієнти будуть зменшені менше, ніж у початковій оцінці.λ

Іншим розумним підходом, подібним за душею до розслабленого ласо, було б використання ласо один раз (або кілька разів у тандемі) для виявлення групи змінних прогнозованих кандидатів. Потім використовуйте найкращі регресії підмножини, щоб вибрати найкращі змінні прогнозувальника, які слід врахувати (також див. "Елементи статистичного навчання" для цього). Для цього вам потрібно буде уточнити групу передбачувачів кандидатів приблизно до 35, що не завжди буде здійсненним. Ви можете використовувати перехресну валідацію або AIC як критерій, щоб запобігти надмірному встановленню.


Інша частина мого питання полягає в тому, чому "Лассо може вибрати не більше n функцій"? Якщо це так, я думаю, що OLS для вибраних функцій буде принаймні «хорошим», оскільки OLS - це «СВІТИЙ» (не строго СВІТИЙ, оскільки він є переважно упередженим). Просто врахуйте екстремальну ситуацію, коли Лассо вибирає абсолютно правильні функції, проведення OLS за цими можливостями відновить справжню модель, яка, на мою думку, є кращою, ніж оцінка Лассо.
yliueagle

2
Проблема полягає в тому, що ця "екстремальна ситуація" навряд чи станеться, і немає ніякого способу дізнатися, чи LASSO обрав саме правильні функції. Якщо LASSO вибирає занадто багато функцій, то я думаю, що повна модель OLS може працювати гірше, ніж оцінка LASSO. Аналогічно, регресія хребта може перевершити OLS, якщо занадто багато функцій (тобто OLS є надмірним).
Алекс Вільямс

2
Дивіться також web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , кінець розділу 2.2: "[...] найменші квадрати, розміщені на підмножині [...] прогнозів, як правило, розширюють оцінки" ласо ". від нуля. Ненолітні оцінки від ласо мають тенденцію бути упередженими до нуля, тому нахил на правій панелі часто може покращити помилку передбачення моделі. Цей двоступеневий процес також відомий як розслаблений ласо (Meinshausen 2007) . "
амеба каже, що повернеться до Моніки

1
Я заглянув у папір Meinshausen, і він фактично рекомендує встановити два параметри штрафу, як описано у вашій оригінальній цитаті з The Elements. +1
амеба повідомляє про відновлення Моніки

@AlexWilliams Але чи не існує попереднього припущення про обмеженість у попередньому пункті про співвідношення між вибраним набором та тим, що вилучене є малим?
Мастеров Дмитро Васильович

15

Якщо ваша мета - оптимальна продуктивність у вибірці (найвищий R-квадрат), тоді просто використовуйте OLS для кожної доступної змінної. Випадання змінних зменшить R-квадрат.

Якщо ваша мета - хороша позабіржова ефективність (що зазвичай набагато важливіше), то запропонована вами стратегія буде страждати від двох джерел перевиконання:

  • Вибір змінних на основі кореляції зі змінною відповіді
  • Оцінки OLS

Мета LASSO - зменшити оцінку параметрів до нуля, щоб боротися над двома джерелами перевиконання. Прогнози у вибірці завжди будуть гіршими, ніж OLS, але сподіваємось (залежно від сили пеналізації) отримати більш реалістичну поведінку поза вибіркою.

p>np>n


2
"Лікассо" (завжди вибирайте 10 коефіцієнтів) відрізняється від пропозиції запитання (переоцініть OLS з k передбачувачами, вибраними LASSO)
Affine

@affine ви абсолютно праві. Я видалив посилання.
Майкл М

2
Це звучить розумно, але винахідники Лассо стверджують інакше і фактично рекомендують використовувати двоступеневу процедуру з OLS для визначеного підмножини Лассо (як це запропонував ОП), див. Відповідь @ Alex'es.
амеба каже, що повернеться до Моніки

Мені подобається ця відповідь, тому що в ній згадується ухил відбору від самого пошуку; він впевнений, відчуває, що повинно бути додаткове покарання. LASSO як простий механізм вибору підмножини - це все? Тоді навіщо взагалі друкувати його коефіцієнти?
Бен Огорек

3

Щодо питання ОП, чому Лассо може вибрати не більше n функцій:

Поміркуйте, чому OLS може бути упередженим: це коли прогнози ( p ) більше, ніж спостереження ( n ). Таким чиномХТХβ=(XTX)1XTY

XTX


1
(-1) Я не думаю, що це правда. Чи можете ви пояснити більше зв’язок між (XTX)1
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.