Оптимальний вибір штрафу для ласо


15

Чи існують які - небудь результати аналізів або експериментальні роботи в відношенні оптимального вибору коефіцієнта терміну симуляції. Під оптимальним розумію параметр, який максимально збільшує ймовірність вибору найкращої моделі або мінімізує очікувані втрати. Я запитую, оскільки часто недоцільно обирати параметр шляхом перехресної перевірки або завантажувальної програми, або через велику кількість випадків проблеми, або через розмір проблеми, що існує. Єдиний позитивний результат, про який я знаю, - це Candes and Plan, майже ідеальний вибір моделі шляхом мінімізації .11


2
Вам відомі документи, що встановлюють результати послідовності ласо? Knight & Fu (2000), Yu & Zhao (2006) та різні статті Мейнхаузена.
кардинал

Так, але моє запитання не про асимптотичну послідовність, що є предметом згаданих вами робіт.
гаппі

1
Ці документи (в першу чергу) стосуються послідовності вибору моделі , яка, я б сказав, дуже пов'язана з заданим вами питанням. :)
кардинал

Відповіді:


2

Теорема 5.1 замовлення цього Bickel та співавт. . Статистично оптимальний вибір з точки зору помилки є λ = σ шум yy^(λ)22 (з великою часткою ймовірності), для постійноїA>2λ=Aσnoiselogpn .A>22


Це, здається, не відповідає законопроекту, оскільки вимагає знати . Насправді саме ця проблема мотивує квадратний кореневий ласо ( arxiv.org/pdf/1009.5689.pdf )σnoise
user795305

5

Я вважаю, що вас найбільше цікавить регресія, як у цитованому документі, а не інші програми -каналності (скажімо, графічне ласо).1

Тоді я вважаю, що деякі відповіді можна знайти у статті " Про ступінь свободи" ласо від Zou et al. Якщо коротко, то це дає аналітичну формулу для ефективних ступенів свободи , які для квадрата втрати помилок дозволяють замінити CV аналітичної - типу статистикою, скажу.Cp

Ще одне місце, на яке слід звернути увагу, є в селекторі "Данциг": Статистична оцінка, коли р набагато більша за n, та дискусійні документи в тому ж випуску "Літописи статистики". Я розумію, що вони вирішують проблему, тісно пов'язану з регресією ласо, але з фіксованим вибором коефіцієнта штрафу. Але, будь ласка, подивіться і на дискусійні документи.

Якщо вас цікавлять не прогнозування, а вибір моделей, я не знаю подібних результатів. Оптимальні моделі прогнозування часто призводять до надто багато вибраних змінних в регресійних моделях. У статті Вибір стабільності Майнсхаузен та Бюльманн представляє техніку підсистеми, більш корисну для вибору моделі, але вона може бути занадто обчислювально вимогою для ваших потреб.


(+1) Усі ці роботи заслуговують уважного ознайомлення з тими, хто цікавиться цією темою. Селекторний папір Данцига має дуже гарну математику; однак, я не бачив, щоб він сильно потягнувся в додатках, і не очікую цього. Я думаю, серед іншого, дуже шумні шляхи регуляризації змушують людей нервувати, і тому, без очевидної вигоди від ласо, змушують його важко продати.
кардинал

Хам, зауважимо, що хоча кількість ненульових коефіцієнтів для заданого значення параметра регуляризації є неупередженою оцінкою для DoF при цьому значенні, ця оцінка є надзвичайно великою дисперсією.
дохматоб

1

Оскільки це питання було задано, було досягнуто цікавого прогресу. Наприклад, розглянемо цей документ

Chichignoud, M., Lederer, J., & Wainwright, M. (2016). Практична схема та швидкий алгоритм налагодження Лассо з гарантіями оптимальності. Журнал досліджень машинного навчання, 17, 1–17.

Вони пропонують метод вибору параметра настройки LASSO з гарантованими обмеженими гарантіями вибірки для вибору моделі. Як говориться в статті, "Для стандартних калібрувальних схем, серед яких перехресна валідація, в літературі відсутні порівнянні гарантії. Насправді нам невідомі жодні обмеження зразка для стандартних схем калібрування".


0

Це не дає відповіді на ваше запитання, але: у великих налаштуваннях даних, можливо, буде добре настроїти регулятор за допомогою одного розбиття поїзда / тесту, замість того, щоб робити це 10 або більше разів у крос-валідації (або більше для завантажувальної програми). Розмір та репрезентативність вибірки, обраної для розробки, визначає точність оцінки оптимального регулятора.

На мій досвід, витримана втрата є відносно рівною за значного діапазону регулятора. Я впевнений, що цей факт може не спричинити інших проблем.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.