Вибір моделі LASSO та вибір вперед / назад мають і сильні, і обмежені сторони. Далеких захоплюючих рекомендацій не можна зробити. Для вирішення цього питання завжди можна дослідити моделювання.
І те й інше можна зрозуміти в сенсі розмірності: посилаючись на кількість параметрів моделі та кількість спостережень. Якщо вам вдалося підігнати моделі, використовуючи зворотний вибір моделі, ви, ймовірно, не мали . У цьому випадку "найкраще підходить" модель - це та модель, яка використовує всі параметри ... коли вона перевірена внутрішньо! Це просто питання оздоблення.pnp≫n
Перевизначення виправляється за допомогою розділеної перехресної перевірки зразка (CV) для оцінки моделі. Оскільки ви цього не описали, я припускаю, що ви цього не зробили. На відміну від поетапного вибору моделі, LASSO використовує параметр настройки для покарання кількості параметрів у моделі. Ви можете зафіксувати параметр настройки або вибрати складний ітераційний процес, щоб вибрати це значення. За замовчуванням LASSO робить останнє. Це робиться з резюме, щоб мінімізувати показник MSE передбачення. Мені невідома будь-яка реалізація поетапного вибору моделі, яка використовує такі складні методи, навіть BIC як критерій буде страждати від упередженості внутрішньої перевірки. На мій рахунок, це автоматично дає важіль LASSO над поступовим вибором моделі "поза коробкою".
Нарешті, поетапний вибір моделі може мати різні критерії включення / виключення різних регресорів. Якщо ви використовуєте значення p для тесту Wald для конкретних параметрів моделі або результуючої моделі R ^ 2, ви не зробите це, в основному, через внутрішнє зміщення перевірки (знову ж таки, це можна виправити за допомогою CV). Мені здається дивним, що це все-таки те, як такі моделі, як правило, реалізуються. AIC або BIC - це набагато кращі критерії вибору моделі.
З кожним методом існує низка проблем. Проблеми вибору моделей поетапно розуміються набагато краще і набагато гірші, ніж проблеми LASSO. Основна проблема, яку я бачу у вашому питанні, полягає в тому, що ви використовуєте інструменти вибору функцій для оцінки прогнозування . Вони є окремими завданнями. LASSO краще для вибору особливостей або рідкого вибору моделі. Регресія хребта може дати кращий прогноз, оскільки він використовує всі змінні.
Велика сила LASSO полягає в тому, що він може оцінювати моделі, в яких , як це може бути вперед (але не назад) ступінчатою регресією. В обох випадках ці моделі можуть бути ефективними для прогнозування лише за наявності кількох дуже потужних прогнозів. Якщо результат краще прогнозується багатьма слабкими прогнозами, то регресія хребта або мішок / прискорення випереджають як ступінчасту регресію вперед, так і LASSO по довгому удару. LASSO набагато швидший, ніж ступінчаста регресія вперед.p≫n
Очевидно, існує велике перекриття між вибором функції та прогнозуванням, але я ніколи не розповідаю про те, наскільки добре гайковий ключ служить молотом. В цілому, для прогнозування з обмеженою кількістю модельних коефіцієнтів і , я віддаю перевагу LASSO над поступовим покроковим вибором моделі.p≫n