Зв'язок між рецептурами Лассо


9

Це питання може бути німим, але я помітив, що є дві різні форми регресії Лассо . Ми знаємо, що проблема Лассо полягає в тому, щоб мінімізувати мету, що складається з квадратної втрати плюс штрафний термін -1, виражений таким чином, L

minβyXβ22+λβ1

Але часто, коли я бачив оцінювач Лассо, можна записати як

β^n(λ)=argminβ{12nyXβ22+λβ1}

Моє запитання: чи є рівнозначними? Звідки береться термін 12n ? Зв'язки між двома рецептами для мене не очевидні.

[Оновлення] Я думаю, що запитання, яке я повинен задати, це:

Чому існує друга рецептура? Яка теоретична чи обчислювальна перевага у формулюванні проблеми таким чином?


2
Якщо встановити у другій рецептурі, що дорівнює разів більше, ніж у першій рецептурі, то цільова функція у другій рецептурі на перевищує об'єктивну функцію у першій рецептурі. По суті, ви просто змінили одиниці вимірювання збитків. Як ви гадаєте, що змінило б оптимальні значення ? λ1/(2n)λ1/(2n)β
whuber

Дякую, @Whuber. Це для мене сенс. Тоді чому існує остання рецептура? Яка теоретична чи обчислювальна перевага у формулюванні проблеми таким чином?
Аарон Дзенг

Відповіді:


10

Вони справді рівноцінні, оскільки завжди можна змінити масштаб (див. Також коментар @ whuber). З теоретичної точки зору, це питання зручності, але, наскільки я знаю, це не потрібно. З точки зору обчислень, я фактично вважаю досить дратівливим, тому зазвичай використовую першу рецептуру, якщо розробляю алгоритм, який використовує регуляризацію.λ1/(2n)

Невелика історія: Коли я вперше почав дізнаватися про пеніалізовані методи, мені стало роздратовано переносити всюди в своїй роботі, тому я вважав за краще ігнорувати це - це навіть спростило деякі мої розрахунки. На той час моя робота в основному була обчислювальною. З недавніх пір я займаюся теоретичною роботою, і вважаю, що незамінним (навіть проти, скажімо, ).1/(2n)1/(2n)1/n

Більш детально: Коли ви намагаєтесь проаналізувати поведінку Лассо як функції розміру вибірки , вам часто доводиться мати справу з сумами iid випадкових змінних, і на практиці зазвичай зручніше аналізувати такі суми після нормалізації на - -задумайте закон великих чисел / теорему про центральну межу (або якщо ви хочете отримати фантазію, концентрацію міри та емпіричну теорію процесу). Якщо у вас немає терміну перед збитком, ви, в кінцевому рахунку, в кінцевому підсумку аналізу щось переосмислити, тож, як правило, приємніше мати це для початку. зручна тим , що вона скасовує деякі дратівливі чинникиnn1/n1/22 в аналізі (наприклад, коли ви берете похідну від квадрата збитку).

Інший спосіб думати про це полягає в тому, що, виконуючи теорію, ми, як правило, зацікавлені в поведінці рішень, оскільки збільшується - тобто не є якоюсь фіксованою величиною. На практиці, коли ми запускаємо Lasso на якомусь фіксованому наборі даних, дійсно фіксується з точки зору алгоритму / обчислень. Отже, маючи додатковий нормалізуючий фактор на передній частині, не все так корисно.nnn

Це може здатися набридливим питанням зручності, але, витративши достатньо часу на маніпулювання цими видами нерівностей, я навчився любити .1/(2n)


3
Як тільки ви зрозумієте, для чого ці нормалізуючі константи, ви починаєте їх бачити всюди .
Метью Друрі

Дякую за це пояснення. Ми з гордістю читаємо ваш чудовий досвід у цій галузі. Дякую ще раз
Крістіна
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.