Як має сенс робити OLS після вибору змінної LASSO?


20

Нещодавно я виявив, що в літературі з прикладної економетрики, коли вирішуються проблеми вибору особливостей, не рідкість виконувати LASSO з наступною регресією OLS з використанням вибраних змінних.

Мені було цікаво, як можна визначити обгрунтованість такої процедури. Чи це спричинить неприємності, такі як опущені змінні? Будь-які докази, що показують, що це ефективніше, або результати більш зрозумілі?

Ось кілька пов’язаних дискусій:

Змінний вибір з LASSO

Використання дерев після вибору змінної за допомогою Lasso / Random

Якщо, як вказувалося, така процедура взагалі неправильна, то чому все ще так багато досліджень роблять? Чи можу я сказати, що це просто головне правило, компромісне рішення через деякі непрості властивості оцінювача LASSO та прихильність людей до OLS?


Чи можете ви пояснити, що означає робити "регресію OLS" після виконання LASSO? Що конкретно, цей крок OLS намагається оцінити, що LASSO не оцінив?
whuber

2
Існує кілька останніх робочих документів з цього питання. Багато хто, здається, вимагають припущення, що набір дійсних змінних є рідким. Якщо це припущення не дотримується, то так, упередження змінених змінних є. А людям подобається ols, тому що вони хочуть інтерпретувати кофе як об'єктивний із граничних ефектів вибірки. Економетрика досить застрягла в цій парадигмі.
generic_user

4
У цій останній книзі LASSO (безкоштовно в Інтернеті) з'являється розділ 11.4 для вирішення цього питання. Я детально цього не читав, але вступ закінчується тим, що "Враховуючи [оцінку LASSO] яка правильно відновлює підтримку , ми можемо оцінити дуже добре ... просто виконуючи звичайну регресію з найменшими квадратами, обмежену цією підмножиною ". β*β*β^ββ
GeoMatt22

Відповіді:


12

Кілька днів тому виникло подібне запитання, на яке було відповідне посилання:

  • Belloni, A., Chernozhukov, V., and Hansen, C. (2014) "Висновок щодо ефектів лікування після відбору серед високомірних контролів", Огляд економічних досліджень, 81 (2), с. 608-50 ( посилання )

Принаймні, для мене документ є досить важким, тому що докази цього відносно простого є досить детальними. Коли ви зацікавлені в оцінці такої моделі, як

yi=αTi+Xiβ+ϵi

де - ваш результат, - це певний ефект, що цікавить лікування, а - вектор потенційного контролю. Цільовим параметром є . Припускаючи, що більшість варіацій результату пояснюється лікуванням та рідкісним набором контролю, Belloni et al. (2014) розробити подвійний надійний метод вибору, який забезпечує правильні оцінки балів та допустимі інтервали довіри. Це припущення про обмеженість є важливим.T i X i αyiTiXiα

Якщо включає кілька важливих предикторів але ви не знаєте, що вони є (або окремі змінні, їх поліноми вищого порядку, або взаємодія з іншими змінними), ви можете виконати процедуру вибору трьох кроків:y iXiyi

  1. регресуйте на , їх квадрати та взаємодії та виберіть важливі предиктори за допомогою LASSOX iyiXi
  2. регресуйте на , їх квадрати та взаємодії та виберіть важливі предиктори за допомогою LASSOX iTiXi
  3. регресують на та всі змінні, які були обрані в будь-якому з перших двох етапівT iyiTi

Вони дають докази того, чому це працює, і чому ви отримуєте правильні інтервали довіри тощо від цього методу. Вони також показують, що якщо ви виконаєте лише вибір LASSO на вищезгаданій регресії, а потім регресуєте результат лікування та вибраних змінних, ви отримаєте неправильні оцінки балів та помилкові інтервали довіри, як уже сказав Бьорн.

Метою цього є подвійне: порівняння вашої початкової моделі, де вибір змінних керувався інтуїцією чи теорією, з подвійною надійною моделлю вибору дає уявлення про те, наскільки хороша ваша перша модель. Можливо, ваша перша модель забула деякі важливі умови квадрату чи взаємодії, і, таким чином, страждає від неправильно визначеної функціональної форми або пропущених змінних. По-друге, Belloni та ін. (2014) метод може покращити висновок про ваш цільовий параметр, оскільки надлишкові регресори були покарані за їхню процедуру.


"Правильні" бальні оцінки?
Річард Харді

3

Виконання вибору змінної та повторного запуску ансилізування, як ніби не відбулося виділення змінної, і вибрана модель передбачалася з самого початку, як правило, призводить до перебільшених розмірів ефекту, недійсних значень p та довірчих інтервалів із нижчим номінальним покриттям. Можливо, якщо розмір вибірки дуже великий і є кілька величезних ефектів і безліч нульових ефектів, LASSO + OLS може не надто сильно впливати на це, але крім цього я не бачу жодного розумного обґрунтування, і в цьому випадку LASSO оцінки також повинні бути чудовими.


1
Але чому друга модель починається з нуля так, ніби не відбувся вибір змінної? Чи не LASSO вибирає пояснювальну змінну з найкращою силою прогнозування? До речі, я знову задумав зробити змінну змінну матрицю LASSO у glm. Тепер я зрозумів, що LASSO сама по собі є регресом.
SIslam
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.