Чому найкращому вибору підмножини не сприяє порівняно з ласо?


13

Я читаю про найкращий вибір підмножини в книзі «Елементи статистичної книги». Якщо у мене є 3 предиктори , я створюю підмножини:2 3 = 8x1,x2,x323=8

  1. Підмножина без прогнозів
  2. підмножина з предикторомx1
  3. підмножина з предикторомx2
  4. підмножина з предикторомx3
  5. підмножина з предикторамиx1,x2
  6. підмножина з предикторамиx1,x3
  7. підмножина з предикторамиx2,x3
  8. підмножина з предикторамиx1,x2,x3

Потім я перевіряю всі ці моделі на тестових даних, щоб вибрати найкращу.

Тепер моє запитання: чому найкращому вибору підмножини не сприяє порівняно, наприклад, ласо?

Якщо я порівнюю порогові функції кращого підмножини та ласо, я бачу, що найкраще підмножина встановлює деякі коефіцієнти до нуля, як ласо. Але, інший коефіцієнт (ненульовий) все ще матиме значення ols, вони будуть невідмінними. Тоді як в ласо деякі коефіцієнти будуть дорівнювати нулю, а інші (ненульові) матимуть деякий зміщення. На малюнку нижче показано це краще: введіть тут опис зображення

З малюнка частина червоної лінії в кращому випадку підмножини лежить на сірій. Інша частина прокладається по осі x, де деякі коефіцієнти дорівнюють нулю. Сіра лінія визначає неупереджені рішення. У лассо деякі упередження вводяться . З цієї цифри я бачу, що найкраще підмножина краще за ласо! Які недоліки використання кращого підмножини?λ


1
.. і як виглядають криві, коли випадковість даних змушує вас вибрати одну з безлічі неправильних підмножин, а пов'язані оцінки коефіцієнтів далеко не нульові щодо їх стандартних помилок?
jbowman

2
@jbowman Я не розумію цього дуже чітко, чому випадковість даних змусить мене вибрати неправильний? Якби я використовував перехресну перевірку для вибору найкращого набору, я мав би менші шанси вибрати неправильний підмножина.
Віль

1
Ви, схоже, ототожнюєте "меншу упередженість" з "кращою". Що спонукає вас до такої високої цінності щодо неупередженості?
Меттью Друрі

Відповіді:


16

У підборі підмножини ненульові параметри будуть об'єктивними лише у тому випадку, якщо ви вибрали надмножину правильної моделі, тобто якщо ви видалили лише прогнози, справжні значення яких дорівнюють нулю. Якщо ваша процедура відбору призвела до виключення прогнозувача з справжнім ненульовим коефіцієнтом, усі оцінки коефіцієнтів будуть упередженими. Це перемагає ваш аргумент, якщо ви згодні, що вибір зазвичай не є ідеальним.

Таким чином, щоб "переконатися" в неупередженій оцінці моделі, вам слід помилитися з боку включення більше, або навіть усіх потенційно релевантних прогнозів. Тобто вибирати взагалі не слід.

Чому це погана ідея? Через упередження-дисперсію компромісу. Так, ваша велика модель буде неупереджена, але вона матиме велику дисперсію, і дисперсія буде домінувати в помилці передбачення (або іншої).

Тому краще прийняти, що оцінки параметрів будуть упередженими, але матимуть меншу дисперсію (регуляризацію), ніж сподіватися, що наш підбір підмножини видалив лише справжні нульові параметри, тому у нас є об'єктивна модель з більшою дисперсією.

λλ0pλλ0β^pβ^p=0β^p=β^pOLS

Це може бути корисним: Чому працює усадка?


Хм. Я не думаю, що це дає відповідь, чому найкраща підмножина гірша за ласо (що тут головне питання).
Амеба каже: Відновіть Моніку

@amoeba: Ви хотіли б детальніше?
Стефан Коласа

Що ж, я зрозумів питання як запитання, чому саме ласо найкраще підмножитися. Уявіть, що ми ставимо обидва в цикл перехресної перевірки, а потім або налаштовуємо параметр lasso, або знаходимо найкращий підмножина. Зазвичай рекомендується ласо. Я зрозумів питання як запитання Чому? (див., наприклад, назву Q), і я не впевнений, що ваша відповідь насправді відповідає на це. Або я неправильно зрозумів вашу відповідь?
амеба каже, що повернемо Моніку

1
λλ0ppλλ0β^p

1
Погодьтеся, що ця відповідь насправді не відповідає на запитання - я додав свою думку щодо цього нижче ...
Том Венселер

11

У принципі, якщо найкраще підмножину можна знайти, воно дійсно краще, ніж LASSO, з точки зору (1) вибору змінних, які насправді сприяють придатності, (2) не вибору змінних, які не сприяють придатності, (3) точність прогнозування та (4) надання по суті неупереджених оцінок для вибраних змінних. Один недавній документ, який стверджував про кращу якість найкращої підмножини над LASSO, - це те, що Берцімас та ін (2016) Берцимаса та ін (2016) висловили "Найкращий вибір підмножини через сучасний оптимізаційний об'єктив" . Ще один старший, який дає конкретний приклад (щодо деконволюції шипових поїздів), де краща підмножина була кращою, ніж LASSO або хребет, - де Rooi & Eilers (2011).

L0L1L0Lqнорма пенізованої регресії з q близькою до 0 в принципі була б ближчою до вибору найкращої підмножини, ніж LASSO, але це вже не проблема опуклої оптимізації, і тому досить складно підходити ).

Для зменшення зміщення LASSO можна використовувати похідні багатоступінчасті підходи, такі як адаптивний LASSO (де коефіцієнти диференційовано караються на основі попередньої оцінки з мінімум квадратів або регресії хребта) або розслаблений LASSO (просте рішення - робити найменші квадрати, відповідні змінним, вибраним LASSO). У порівнянні з найкращим підмножиною, LASSO, як правило, вибирає трохи занадто багато змінних. Кращий вибір підмножини краще, але складніше підходить.

L0надає широке порівняння найкращої підмножини, LASSO та деяких варіантів LASSO, таких як розслаблений LASSO, і вони стверджують, що розслаблений LASSO був тим, хто виробляв найвищу точність прогнозування моделей при найширшому діапазоні обставин, тобто вони прийшли до іншого висновку, ніж Берцімас. Але висновок про те, що найкраще, багато в чому залежить від того, що ви вважаєте найкращим (наприклад, найвища точність прогнозування або найкраще підбирати відповідні змінні та не включати невідповідні; регресія хребта, наприклад, зазвичай вибирає занадто багато змінних, але точність прогнозування для випадків із Висококолінеарні змінні все-таки можуть бути дуже хорошими).

Для дуже маленької проблеми з 3 змінними, як ви описуєте, очевидно, найкращий вибір підмножини є кращим варіантом.


1
Що означає "краще" у фразі "це краще, ніж ласо"?
Меттью Друрі

1
kλkkk

Я трохи відредагував свою відповідь, щоб детальніше розповісти ...
Том Венселер

Я не думаю, що жодна з відповідей стосується проблеми стабільності. Як і поетапна регресія всіх можливих підмножин, lassoє , як відомо, нестабільною. Іншими словами, якщо вам потрібно було завантажувати весь процес, ви знайдете занадто багато довільності у списку вибраних функцій.
Френк Харрелл

Так, змінні, вибрані LASSO, можуть бути нестабільними, і це навіть більше, тому випадок найкращої регресії підмножини - еластична чиста регресія в цьому відношенні трохи краща - що, як правило, включає набагато більше змінних, але вибраних у більш стабільний спосіб і може дати кращу точність прогнозування при високій колінеарності. Але багато що залежить від того, який є найважливішим критерієм для вашої програми - точність прогнозування, хибний позитивний показник включення нерелевантних змінних чи хибний негативний показник
невключення
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.