Чому Lasso або ElasticNet працюють краще, ніж Ridge, коли функції співвідносяться


17

У мене є набір з 150 функцій, і багато з них сильно співвідносяться між собою. Моя мета - передбачити значення дискретної змінної, діапазон якої становить 1-8 . Розмір мого зразка - 550 , і я використовую 10-кратну перехресну перевірку.

AFAIK серед методів регуляризації (Lasso, ElasticNet і Ridge), Ridge більш жорсткий до кореляції між особливостями. Тому я очікував, що з Ріджем мені слід отримати більш точний прогноз. Однак мої результати показують, що середня абсолютна похибка Лассо або Еластики становить приблизно 0,61, тоді як цей показник становить 0,97 за регресію хребта. Цікаво, що було б поясненням цього. Це тому, що у мене багато можливостей, а Лассо працює краще, тому що робить своєрідний вибір функцій, позбавляючись від зайвих функцій?


1
чому ви вважаєте, чому хребет повинен працювати краще? Який розмір вибірки?
bdeonovic

1
Що означає "більш жорсткий до регресу"?
bdeonovic

Відповіді:


21

Припустимо, у вас є дві сильно корельовані змінні предиктора , і припустимо, що обидві центрируються та масштабуються (означають нуль, дисперсія одна). Тоді гряда санкція вектора параметрів є β 2 1 + β 2 2 в той час як термін ласо штрафу | β 1 | + | β 2 | . Тепер, оскільки модель повинна бути високолінійною, так що x і z більш-менш можуть підміняти один одного в передбаченні Y , так багато лінійних комбінацій x , z, де ми просто заміщаємо частковоx,zβ12+β22β1+β2xzYx,z для z буде працювати так само, як і предиктори, наприклад, 0,2 x + 0,8 x , 0,3 x + 0,7 z або 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zбуде приблизно так само хороший, як і прогнози. Тепер погляньте на ці три приклади: ласовий штраф у всіх трьох випадках є рівним, він дорівнює 1, тоді як покарання за гребеня відрізняються, це відповідно 0,68, 0,58, 0,5, тому покарання за гребінь буде віддавати перевагу рівній вазі колінарних змінних, а ласовий штраф не зможе вибрати. Це одна з причин, що гребінь (або, загалом, еластична сітка, яка є лінійною комбінацією ласових та гребінних штрафних санкцій) буде краще працювати з колінарними передбачувачами: Коли дані дають мало причин для вибору між різними лінійними комбінаціями колінарних передбачувачів, ласо буде просто "бродити", коли хребет прагне вибирати рівну вагу. Останнє може бути кращою здогадкою для використання з майбутніми даними! І якщо це так з нинішніми даними, це може виявитись у перехресній валідації як кращі результати з гребенем.

Ми можемо розглянути це байєсським способом: хребет та ласо передбачає різну попередню інформацію, і попередня інформація, яку має на увазі хребет, є більш розумною у таких ситуаціях. (Це пояснення тут я дізнався більш-менш з книги: "Статистичне навчання з рідкістю" Лассо і узагальнення "Тревора Хасті, Роберта Тібширані та Мартіна Уейнрайта, але в цей момент я не зміг знайти пряму цитату).


4
Хороша думка про можливість гребня краще працювати на майбутніх даних. Відмінність між помилкою при перехресній валідації в даних і корисністю для нових даних занадто часто пропускається. Для деякої оцінки останньої ОП може повторити весь процес побудови моделей LASSO, еластичної сітки та хребта на кількох зразках завантажувальних даних, а потім вивчити помилки при застосуванні до повного набору даних. Це хоча б тестує процес побудови моделі.
EdM

Мені не очевидно, чому було б вигідно обирати однакові ваги для колінеарних даних? Чи може хтось детальніше зупинитися на цьому?
Рамон Мартінес

3

Найважливіша відмінність ласо від хребта полягає в тому, що ласо природно здійснює відбір, особливо там, де коваріати дуже корелюють. неможливо бути справді впевненим, не бачивши пристосованих коефіцієнтів, але легко подумати, що серед цих корельованих особливостей багато хто були просто марними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.