Байєсовий шип і плита проти пенізованих методів


11

Я читаю слайди Стівена Скотта про пакет BSTS R (їх можна знайти тут: слайди ).

У якийсь момент, коли йдеться про включення багатьох регресорів у модель структурних часових рядів, він вводить коефіцієнти регресії ковзання та плити, і каже, що вони краще порівняно з пенізованими методами.

Скаже Скотт, посилаючись на приклад набору даних зі 100 прогнозовами:

  • Пенізовані методи приймають єдине рішення про те, які змінні включаються / виключаються, це означає, що вони вирішують одну підмножину предикторів, тобто одну модель серед можливих.2100
  • "Лассо (та споріднені з ними) пріори не є рідкісними, вони індукують рідкість у режимі, але не в задньому розподілі"

У цей момент він знайомить зі Спіком та Плитами.

Я думаю, що я отримав інтуїцію, але хочу бути впевненим у цьому:

  • Чи краще вони в тому сенсі, що вони в основному використовують підхід із грубою силою при тестуванні кожного можливого підмножини регресорів, який слід включити?
  • Чи є недолік час обчислення при цьому?
  • Як ви думаєте, що він має на увазі, кажучи "Лассо (і пов'язане з ним) ... але не в задньому розподілі"?

Відповіді:


10

Я відповім на ваше третє запитання спочатку, а два ваші інші пізніше.

  1. Як ви думаєте, що він має на увазі, кажучи "Лассо (і пов'язане з ним) ... але не в задньому розподілі"?

Ця фігура з його слайдів показує, що він має на увазі. Виражаючи регуляризатор lasso як попередній розподіл, означає, що ваш попередній розподіл буде мати форму лаплаціанського чи подвійного експоненціального розподілу . Цей розподіл має характерний негладкий пік у середньому, який встановлюється 0 для досягнення ефекту розрідженої регуляризації. Щоб безпосередньо отримати результат регулювання ласо, слід перейти в режим заднього розподілу.

тест

На малюнку синя пунктирна лінія являє лаплаціанського попереднього розподілу. Задній розподіл суцільним чорним кольором має режим 0 у лівій частині зі слабкою ймовірністю, тоді як режим справа ненульовий справа з великою ймовірністю.

Однак повний задній розподіл не є рідкісним, тому що якщо ви вибираєте з нього вибір, ви рідко отримуєте деяке значення, близьке до 0, а насправді тому, що це безперервний розподіл, ви ніколи не отримаєте точно 0.

Щоб домогтися розрізненості за допомогою ласового підходу, вам зазвичай потрібно встановити деякий поріг відсічення в задньому режимі. Ідеальний випадок, якщо ваш задній режим дорівнює 0, але ви можете розслабити цю функцію та усунути свою змінну, якщо її задній режим менше 0,2 після прийняття абсолютного значення.

Виконуючи цю розшарування під ласо, дає певний набір усунених і утримуваних регресорів, що є "єдиним рішенням" про те, які регресори включаються або виключаються.

Повністю байєсівський підхід до вибору змінних, попередньо шип і плита зберігає невизначеність щодо того, які змінні повинні бути включені або виключені на всьому протязі моделі.

Отже, щоб вирішити ваше перше питання:

  1. Чи краще вони в тому сенсі, що вони в основному використовують підхід із грубою силою при тестуванні кожного можливого підмножини регресорів, який слід включити?

Це непорозуміння, оскільки жоден метод не тестує всі можливі підмножини регресорів, які слід включити.

  1. Чи є недолік час обчислення при цьому?

Це також непорозуміння, оскільки час обчислення не переважає грубою силою тестування кожного можливого підмножини регресорів.

Щоб уточнити точку Скотта, з огляду на деякі дані, якщо ви використовуєте пеніалізований підхід до спарифікації ймовірності, ви отримаєте рівно один набір включених та виключених регресорів. Але якщо ви використовуєте підхід до розшарування шипів і плит, ви маєте повне заднє розподіл для кожного регресора, кожен з окремою ймовірністю включення або виключення. Деякі регресори можуть мати 70% шансу бути включеними, інші - 25%. Це може бути кращим у багатьох програмах, тому що, маючи один набір даних, ми все ще повинні бути невизначеними щодо того, які регресори важливі чи ні.

Інтуїтивно зрозуміло, що шип і плита попередньо краще представляють можливий простір включених / виключених регресорів порівняно з пеніалізованим підходом до вірогідності, як ласо.


2
Велике спасибі! Моє розуміння слайдів Скотта було настільки поверховим і частково поза оцінкою, що ви дали зрозуміти!
Томмазо Герріні
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.