Основна перевага поетапної регресії полягає в тому, що вона обчислювально ефективна. Однак його ефективність, як правило, гірша, ніж альтернативні методи. Проблема в тому, що це занадто жадібно. Роблячи жорсткий вибір наступного регресора і «заморожуючи» вагу, він робить вибір, який є локально оптимальним на кожному кроці, але неоптимальним в цілому. І вона не може повернутись до свого попереднього вибору.
Наскільки мені відомо, ступінчаста регресія, як правило, не прихильна порівняно з l1 регуляризована регресія (LASSO), яка має тенденцію до отримання кращих рішень.
Тібшірані (1996) . Регресійна усадка та відбір через Лассо
LASSO штрафує l1норма ваг, яка індукує розрідженість у розчині (багато ваг змушені до нуля). Це здійснює вибір змінних ("відповідним" змінним дозволяється мати ненульові ваги). Ступінь розрідженості контролюється терміном покарання, і для його вибору необхідно використовувати певну процедуру (перехресне підтвердження - це звичайний вибір). LASSO є більш обчислювальною, ніж ступінчаста регресія, але існує ряд ефективних алгоритмів. Деякі приклади - найменший кут регресії ( LARS ) та підхід, заснований на спуску координат .
Аналогічний підхід до того, що ви запропонували в (2), називається переслідуванням ортогональної відповідності. Це узагальнення гонитви за сумісництвом, яка називається поетапною регресією в літературі з обробки сигналів.
Pati і співавт. (1993) . Ортогональна відповідність узгодження: наближення рекурсивної функції з додатками для розкладання вейвлетів
Після кожної ітерації до активного набору додається наступний найкращий регресор. Потім ваги для всіх регресорів в активному наборі перераховуються. Через крок повторного зважування такий підхід є менш жадібним (і має кращі показники), ніж регулярний регрес у відповідність / ступінь. Але це все ще використовує жадібний евристичний пошук.
Всі ці підходи (ступінчаста регресія, LASSO та ортогональне погодження відповідності) можна розглядати як наближення до наступної проблеми:
minw∥y−Xw∥22s.t. ∥w∥0≤c
У контексті регресії стовпці відповідають незалежним змінним, а - залежній змінній. При обробці сигналів стовпці відповідають основним функціям, а - сигнал для наближення. Мета - знайти розріджений набір ваг які дають найкраще (найменше квадратів) наближення . норма просто підраховує кількість ненульових елементів в . На жаль, ця проблема є важкою для NP, тому алгоритми наближення повинні використовуватися на практиці. Поетапна регресія та ортогональне узгодження намагаються вирішити проблему за допомогою жадної стратегії пошуку. LASSO переформулює проблему, використовуючи розслабленняXyXywyl0wl0 норма до норми. Тут проблема оптимізації стає опуклою (і, таким чином, простежується). І хоча проблема вже не тотожна, рішення схоже. Якщо я правильно пам'ятаю, було доведено, що і LASSO, і ортогональна гонитва за збігом реконструюють точне рішення за певних умов.l1