Якщо інтерес представляє лише прогнозування, навіщо використовувати ласо через хребет?


37

На сторінці 223 у вступі до статистичного навчання автори узагальнюють відмінності між регресією хребта та ласо. Вони наводять приклад (рис. 6.9) того, коли "ласо має тенденцію перевершити регресію хребта в плані зміщення, дисперсії та MSE".

Я розумію, чому ласо може бути бажаним: це призводить до рідкісних рішень, оскільки він зменшує багато коефіцієнтів до 0, в результаті чого виникають прості та інтерпретаційні моделі. Але я не розумію, як він може перевершити гребінь, коли цікавлять лише прогнози (тобто як у прикладі отримується істотно нижчий MSE).

Якщо хребет, якщо багато передбачувачів майже не впливають на реакцію (коли кілька прогнозів мають великий ефект), їх коефіцієнти просто не будуть зменшені до невеликої кількості, дуже близької до нуля ... в результаті чого вийде щось дуже схоже на ласо ? То чому б фінальна модель мала гірші показники, ніж ласо?



2
Я бачив це посилання. Це не дає відповіді на запитання.
Олівер Анжеліл

Відповіді:


34

Ви маєте рацію задати це питання. Взагалі, коли використовується правильне оцінювання точності (наприклад, середня помилка передбачення в квадраті), регресія хребта буде перевершувати ласо. Лассо витрачає частину інформації, намагаючись знайти «правильних» прогнокторів, і це навіть не чудово в багатьох випадках. Відносна продуктивність обох буде залежати від розподілу істинних коефіцієнтів регресії. Якщо у вас є невелика частка ненульових коефіцієнтів, правда, ласо може працювати краще. Особисто я використовую хребет майже весь час, коли цікавлюсь точністю прогнозування.


1
чи є випадки, коли вас не цікавить точність прогнозування?
Морж Кіт

1
@WalrustheCat Деякі люди, стереосистеми, які походять зі Стенфорда, виступають за використання Лассо для вибору великої мінливої ​​змінної. Імовірно, Френк мав на увазі "... насамперед зацікавлений в точності прогнозування", а не просто "... зацікавлений у точності прогнозування", хоча, на мою думку, різниця між цими двома - це два педантичні, щоб бути корисними.
Джон Мадден

Я ніколи не розумів підходу "регуляризація як зменшення розмірності". Ви можете виконати зменшення розмірності, або через регуляризацію ласо, чи ні, а потім використати найкращу функцію регуляризації для своєї вихідної проблеми за результатами. Але я відволікаюсь.
Морж Кіт

9
З "Загалом [...] регресія хребта випереджає ласо" та "Якщо у вас є невелика частка ненульових коефіцієнтів, правда, ласо може працювати краще", мабуть, випливає, що в більшості проблем прогнозування основна істина не є рідкою. Це ви говорите?
Амеба каже, що повернеться до Моніки

5
Так, головним чином. Якщо ви знаєте основну істину "в розподілі", ви створили б баєсівський попередній розподіл для невідомих коефіцієнтів регресії, які отримали б оптимальні результати. І навіть коли, скажімо, 3/4 прогнозів мають рівно нульовий ефект, хребет є конкурентоспроможним з ласо.
Френк Харрелл

11

Я думаю, що конкретна установка прикладу, на який ви посилаєтесь, є ключовим для розуміння того, чому ласо перевершує гребінь: лише 2 з 45 прогнозів насправді актуальні.

Це межує з патологічним випадком: ласо, спеціально призначене для того, щоб зробити скорочення до нуля легко, виконує саме так, як задумано, тоді як хребет повинен мати справу з великою кількістю марних термінів (навіть їх вплив зводиться закритим до нуля, це все одно ненульовий ефект).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.