Я відповім на ваше третє запитання спочатку, а два ваші інші пізніше.
- Як ви думаєте, що він має на увазі, кажучи "Лассо (і пов'язане з ним) ... але не в задньому розподілі"?
Ця фігура з його слайдів показує, що він має на увазі. Виражаючи регуляризатор lasso як попередній розподіл, означає, що ваш попередній розподіл буде мати форму лаплаціанського чи подвійного експоненціального розподілу . Цей розподіл має характерний негладкий пік у середньому, який встановлюється 0 для досягнення ефекту розрідженої регуляризації. Щоб безпосередньо отримати результат регулювання ласо, слід перейти в режим заднього розподілу.
На малюнку синя пунктирна лінія являє лаплаціанського попереднього розподілу. Задній розподіл суцільним чорним кольором має режим 0 у лівій частині зі слабкою ймовірністю, тоді як режим справа ненульовий справа з великою ймовірністю.
Однак повний задній розподіл не є рідкісним, тому що якщо ви вибираєте з нього вибір, ви рідко отримуєте деяке значення, близьке до 0, а насправді тому, що це безперервний розподіл, ви ніколи не отримаєте точно 0.
Щоб домогтися розрізненості за допомогою ласового підходу, вам зазвичай потрібно встановити деякий поріг відсічення в задньому режимі. Ідеальний випадок, якщо ваш задній режим дорівнює 0, але ви можете розслабити цю функцію та усунути свою змінну, якщо її задній режим менше 0,2 після прийняття абсолютного значення.
Виконуючи цю розшарування під ласо, дає певний набір усунених і утримуваних регресорів, що є "єдиним рішенням" про те, які регресори включаються або виключаються.
Повністю байєсівський підхід до вибору змінних, попередньо шип і плита зберігає невизначеність щодо того, які змінні повинні бути включені або виключені на всьому протязі моделі.
Отже, щоб вирішити ваше перше питання:
- Чи краще вони в тому сенсі, що вони в основному використовують підхід із грубою силою при тестуванні кожного можливого підмножини регресорів, який слід включити?
Це непорозуміння, оскільки жоден метод не тестує всі можливі підмножини регресорів, які слід включити.
- Чи є недолік час обчислення при цьому?
Це також непорозуміння, оскільки час обчислення не переважає грубою силою тестування кожного можливого підмножини регресорів.
Щоб уточнити точку Скотта, з огляду на деякі дані, якщо ви використовуєте пеніалізований підхід до спарифікації ймовірності, ви отримаєте рівно один набір включених та виключених регресорів. Але якщо ви використовуєте підхід до розшарування шипів і плит, ви маєте повне заднє розподіл для кожного регресора, кожен з окремою ймовірністю включення або виключення. Деякі регресори можуть мати 70% шансу бути включеними, інші - 25%. Це може бути кращим у багатьох програмах, тому що, маючи один набір даних, ми все ще повинні бути невизначеними щодо того, які регресори важливі чи ні.
Інтуїтивно зрозуміло, що шип і плита попередньо краще представляють можливий простір включених / виключених регресорів порівняно з пеніалізованим підходом до вірогідності, як ласо.