Якщо LASSO еквівалентний лінійній регресії з Laplace до того, як може бути маса на множинах з компонентами в нулі?


20

Ми всі знайомі з ідеєю, добре зафіксованою в літературі, що оптимізація LASSO (заради простоти обмежує увагу тут випадком лінійної регресії) еквівалентно лінійній моделі з гауссовими помилками, в яких параметри задаються Laplace prior \ exp (- \ lambda \ | \ beta \ | _1) Ми також усвідомлюємо, що вища встановлює параметр настройки, \ lambda , більша частина параметрів встановлюється до нуля. Коли це було сказано, у мене є таке питання про думку:

loss=yXβ22+λβ1

exp(λβ1)
λ

Вважайте, що з байєсівської точки зору ми можемо обчислити задню ймовірність того, що, скажімо, ненульові оцінки параметрів лежать у будь-якому заданому наборі інтервалів, а параметри, встановлені на нулі за допомогою LASSO, дорівнюють нулю. Що мене бентежить, враховуючи, що попереднє значення Лапласа є безперервним (насправді абсолютно безперервним), то як може бути будь-яка маса на будь-якому множині, що є добутком інтервалів та одинарних клавіш у {0} ?


8
Що змушує вас думати, що задня частина не є також безперервним PDF? Той факт, що максимум задньої частини трапляється в точці, яка, як правило, має багато компонентів 0, само по собі не означає, що задня частина не є безперервним PDF.
Брайан Борчерс

Задня частина - це суцільний PDF. Якщо розглядати як обмежену оцінку максимальної вірогідності, якщо ми уявляємо неодноразові малюнки з одного і того ж розподілу даних, коли справжня модель має нулі при кількох коефіцієнтах регресії, а константа настройки досить велика, то CMLE завжди матиме однакові компоненти, встановлені на нуль, а не- нульові параметри будуть розподілені у відповідні довірчі інтервали. З байєсівської точки зору це рівнозначно позитивній ймовірності для таких множин. Моє питання - як це може бути для постійного розповсюдження.
Грант Ізмірліан

2
Рішення CLME збігається з оцінкою MAP. Справді більше нічого не можна сказати.
Sycorax каже, що повернеться до Моніки

3
Рішення CMLE не є зразком із заднього.
Брайан Борчерс

2
Не існує суперечності, оскільки задній не додає масу на множини нижчої розмірності.
Сіань

Відповіді:


7

Як і всі коментарі вище, байєсівська інтерпретація LASSO не приймає очікуваного значення заднього розподілу, що саме ви хотіли б зробити, якби ви були пуристом. Якщо це було б так, то ви б мали рацію, що за даними є дуже малий шанс, що задній буде нульовим.

Насправді байєсівська інтерпретація LASSO приймає оцінку MAP (Maximum A Posteriori) задньої частини. Це здається вам знайомим, але для тих, хто цього не має, це в основному максимальна ймовірність Баєса, де ви використовуєте значення, що відповідає максимальній ймовірності появи (або режиму) як ваш оцінювач параметрів у LASSO. Оскільки розподіл експоненціально збільшується до нуля від негативного напрямку і не падає експоненціально в позитивному напрямку, якщо ваші дані настійно не підказують, що бета-версія є якимось іншим значущим значенням, максимальне значення значення вашої задньої частини, ймовірно, буде 0.

Якщо коротко розповісти, ваша інтуїція, здається, базується на середньому рівні заднього, але байєсівська інтерпретація LASSO заснована на прийнятті режиму заднього.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.