Перевага LASSO над вибором / усуненням вперед в плані похибки прогнозування перехресної перевірки моделі


10

Я отримав три зменшених моделі від оригінальної повної моделі за допомогою

  • прямий вибір
  • зворотне усунення
  • Техніка пеналізації L1 (LASSO)

Для моделей, отриманих за допомогою вибору вперед / усунення вперед, я отримав перехресну перевірену оцінку помилки прогнозування за допомогою CVlmпакету, DAAGдоступного в R. Для моделі, обраної через LASSO, я використовував cv.glm.

Похибка прогнозування для LASSO була меншою, ніж помилки, отримані для інших. Тож модель, отримана за допомогою LASSO, здається, краща з точки зору її прогнозованої спроможності та мінливості. Це загальне явище, яке завжди виникає, чи це специфічна проблема? Які теоретичні міркування для цього, якщо це загальне явище?


3
Переконайтеся, що ви не використовуєте неправильне правило оцінки точності, таке як пропорція, класифікована правильно, оскільки це винагороджує невідповідні прогнози / моделі. І порівняйте з нормою L2. Б'юсь об заклад, що буде краще, ніж 3 підходи, які ви спробували.
Френк Харрелл

Відповіді:


16

Вибір моделі LASSO та вибір вперед / назад мають і сильні, і обмежені сторони. Далеких захоплюючих рекомендацій не можна зробити. Для вирішення цього питання завжди можна дослідити моделювання.

І те й інше можна зрозуміти в сенсі розмірності: посилаючись на кількість параметрів моделі та кількість спостережень. Якщо вам вдалося підігнати моделі, використовуючи зворотний вибір моделі, ви, ймовірно, не мали . У цьому випадку "найкраще підходить" модель - це та модель, яка використовує всі параметри ... коли вона перевірена внутрішньо! Це просто питання оздоблення.pnpn

Перевизначення виправляється за допомогою розділеної перехресної перевірки зразка (CV) для оцінки моделі. Оскільки ви цього не описали, я припускаю, що ви цього не зробили. На відміну від поетапного вибору моделі, LASSO використовує параметр настройки для покарання кількості параметрів у моделі. Ви можете зафіксувати параметр настройки або вибрати складний ітераційний процес, щоб вибрати це значення. За замовчуванням LASSO робить останнє. Це робиться з резюме, щоб мінімізувати показник MSE передбачення. Мені невідома будь-яка реалізація поетапного вибору моделі, яка використовує такі складні методи, навіть BIC як критерій буде страждати від упередженості внутрішньої перевірки. На мій рахунок, це автоматично дає важіль LASSO над поступовим вибором моделі "поза коробкою".

Нарешті, поетапний вибір моделі може мати різні критерії включення / виключення різних регресорів. Якщо ви використовуєте значення p для тесту Wald для конкретних параметрів моделі або результуючої моделі R ^ 2, ви не зробите це, в основному, через внутрішнє зміщення перевірки (знову ж таки, це можна виправити за допомогою CV). Мені здається дивним, що це все-таки те, як такі моделі, як правило, реалізуються. AIC або BIC - це набагато кращі критерії вибору моделі.

З кожним методом існує низка проблем. Проблеми вибору моделей поетапно розуміються набагато краще і набагато гірші, ніж проблеми LASSO. Основна проблема, яку я бачу у вашому питанні, полягає в тому, що ви використовуєте інструменти вибору функцій для оцінки прогнозування . Вони є окремими завданнями. LASSO краще для вибору особливостей або рідкого вибору моделі. Регресія хребта може дати кращий прогноз, оскільки він використовує всі змінні.

Велика сила LASSO полягає в тому, що він може оцінювати моделі, в яких , як це може бути вперед (але не назад) ступінчатою регресією. В обох випадках ці моделі можуть бути ефективними для прогнозування лише за наявності кількох дуже потужних прогнозів. Якщо результат краще прогнозується багатьма слабкими прогнозами, то регресія хребта або мішок / прискорення випереджають як ступінчасту регресію вперед, так і LASSO по довгому удару. LASSO набагато швидший, ніж ступінчаста регресія вперед.pn

Очевидно, існує велике перекриття між вибором функції та прогнозуванням, але я ніколи не розповідаю про те, наскільки добре гайковий ключ служить молотом. В цілому, для прогнозування з обмеженою кількістю модельних коефіцієнтів і , я віддаю перевагу LASSO над поступовим покроковим вибором моделі.pn


4

Ви хочете вибрати підмножину предикторів за деякими критеріями. Можливо, AIC у вибірці може бути скоригованим R ^ 2 або перехресною валідацією, не має значення.

Ви можете протестувати кожну комбінацію підмножин передбачувача та вибрати найкращий підмножина. Однак

  • Дуже трудомісткий через комбінаторний вибух параметрів.
  • Працює, якщо у вас більше параметрів, ніж спостережень, в тому сенсі, що ви перевіряєте всі комбінації предикторів, які дають рішення

Ви можете використовувати поступовий поступовий вибір

  • Менш трудомістка, але може не отримати абсолютну найкращу комбінацію, особливо коли предиктори співвідносяться (може вибрати один предиктор і не зможуть отримати подальше вдосконалення, додавши ще 2 прогнози, було б показано поліпшення)
  • Працює навіть тоді, коли у вас більше параметрів, ніж спостережень

Ви можете використовувати зворотне усунення

  • Не працює, якщо у вас більше параметрів, ніж спостереження, немає жодної хорошої відправної точки (теоретично ви могли б почати з усіх дійсних вихідних точок, працювати назад, вибрати найкращий, але це не те, що зазвичай розуміється під зворотним усуненням)
  • Як і вперед покроково, менш трудомісткий, ніж усі підмножини, але може не отримати абсолютну найкращу комбінацію, особливо коли предиктори співвідносяться

Ви можете використовувати LASSO

  • Працює навіть тоді, коли у вас більше параметрів, ніж спостережень
  • CPU-ефективний, коли у вас багато параметрів і комбінаторний вибух підмножини
  • Додає регуляризацію

Що стосується вашого запитання, чому LASSO краще працює на ваших даних у резюме

  • Однією з можливостей є залежність шляху, описана вище - LASSO може знайти кращу підмножину. Можливо, пощастило, можливо, LASSO взагалі / іноді стає кращими підмножинами, я не впевнений. Можливо, є література на цю тему.
  • Інша (більш вірогідна) можливість регуляризації LASSO запобігає надмірному налагодженню, тому LASSO має кращі результати в CV / поза зразком.

Підсумок LASSO надає вам регуляризацію та ефективний вибір підмножини, особливо коли у вас є багато прогнозів.

До речі, ви можете зробити LASSO і вибрати свою модель, використовуючи CV (найпоширеніший), але також використовуючи AIC або інший критерій. Запустіть свою модель з регуляризацією L1 і без обмежень, а потім поступово затягуйте обмеження, поки AIC не досягне мінімального рівня, або помилки CV, або критерію, обраного вами. Дивіться http://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_model_selection.html

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.