Навіщо використовувати групове ласо замість ласо?


13

Я прочитав те, що груповий ласо використовується для вибору змінних і обмеженості в групі змінних. Я хочу знати інтуїцію, що стоїть за цим твердженням.

  • Чому груповий ласо віддається перевагу ласо?
  • Чому шлях розв’язання групового ласо не є кусочно лінійним?

1
Що я розумію з Yuan and Lin (2006), що ласо призначений для вибору окремих змінних, а не факторного вибору. Таким чином, Лассо вирішує проблему ANOVA, де метою є вибір важливих основних ефектів та взаємодій для точного прогнозування, що становить вибір груп змінних. Інший приклад - адитивна модель з поліномом, де кожен компонент виражається як лінійна комбінація базових функцій оригінальних виміряних змінних
Вендетта,

Відповіді:


11

Інтуїтивно кажучи, груповий ласо може віддавати перевагу ласо, оскільки він надає нам можливість включити (певний тип) додаткову інформацію в нашу оцінку для справжнього коефіцієнта . Як крайній сценарій, враховуючи наступне:β

За допомогою поставте як підтримку . Розглянемо оцінювач "oracle" що є груповим ласо з двома групами - одна справжня підтримка і один доповнення. Нехай - найменше значення що робить . Зважаючи на характер групового штрафу за ласо, ми знаємо, що при переходить від до (для деяких невеликихyN(Xβ,σ2I)S={j:βj0}β

β^=argminβyXβ22+λ(|S|1/2βS2+(p|S|)1/2βSC2),
λmaxλβ^=0λλmaxλmaxϵϵ>0 ), рівно одна група буде входити в підтримку , який в народі вважається оцінкою для . Завдяки нашому групуванню, з великою часткою ймовірності, вибрана група буде , і ми зробили ідеальну роботу.β^SS

На практиці ми не дуже добре підбираємо групи. Однак групи, не дивлячись на кращий, ніж екстремальний сценарій вище, все ж допоможуть нам: вибір все одно буде зроблений між групою справжніх коваріатів та групою неправдивих коваріатів. Ми все ще позичаємо сили.

Це формалізовано тут . Вони показують, за деяких умов, що верхня межа похибки прогнозування групового ласо нижня, ніж нижня межа похибки прогнозування простого ласо. Тобто вони довели, що групування робить нашу оцінку кращою.

Що стосується вашого другого запитання: (звичайна) ласова кара є кусочно лінійною, і це породжує кусочно-лінійний шлях рішення. Інтуїтивно зрозуміло, що у випадку групового ласо, покарання вже не є кусочно лінійним, тому у нас більше немає цієї властивості. Великий довідник по кусково - лінійності шляхів вирішення є тут . Дивіться їх пропозицію 1. Нехай і . Вони показують, що шлях рішення групового ласо є лінійним тоді і лише тоді, коли є кусочно постійною. Звичайно, це не так, оскільки наша кара має глобальну кривизну.L(β)=yXβ22J(β)=gG|g|1/2βg2

(2L(β^)+λ2J(β^))1J(β^)
J

2
Зараз це має багато сенсу. Дякую за вашу відповідь.
Вендетта

4

Відповідь Бена - найзагальніший результат. Але інтуїтивна відповідь на ОП мотивована випадком категоричних предикторів, які зазвичай кодуються як декілька фіктивних змінних: по одному для кожної категорії. У багатьох аналізах має сенс розглядати ці фіктивні змінні (що представляють один категоричний предиктор) разом, а не окремо.

Якщо у вас є категоріальна змінна з, скажімо, п’ятьма рівнями, прямий ласо може залишити два в і три. Як ви вирішуєте це принципово? Вирішили проголосувати? Буквально використовувати мінливі змінні замість більш змістовної категоричності? Як кодування манекена впливає на ваш вибір?

Як говориться у вступі "Ласо групи" для логістичної регресії , вона згадує:

Вже для особливого випадку в лінійній регресії, коли присутні не тільки безперервні, але й категоричні предиктори (фактори), рішення ласо не є задовільним, оскільки він вибирає лише окремі манекенні змінні замість цілих факторів. Більше того, рішення ласо залежить від того, як кодуються мінливі змінні. Вибір різних контрастів для категоричного прогноктора загалом дасть різні рішення.

Як зазначає Бен, існують також більш тонкі зв’язки між передбачувачами, які можуть вказувати на те, що вони повинні або бути разом, або виходити. Але категоричні змінні - це дочірній плакат для групового ласо.


@Ben: Хм ... я не можу зрозуміти перший коментар ОП, схоже, це відповідь на видалений коментар? Саме питання та його назва - що саме читатиме більшість глядачів - здається загальним питанням. Я, безумовно, видалю свою відповідь, якщо питання та заголовок змінено на щось про "Які неочевидні програми існують для групування ласо за межами випадку категоричних змінних?"
Уейн

Добре. Мені подобається ваша думка про те, як використання (простого) ласо на фактори робить оцінки залежними від кодування факторів! Раніше я просто думав про груповий ласо як про те, що він надає нам певну "міристість вимірювання" замість "розрідженості параметрів" (тобто нам слід вимірювати коефіцієнт чи ні - всі рівні повинні бути обрані чи ні.)
user795305
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.