Що спричиняє нестабільність ласо для вибору функцій?


12

У стисненому зондуванні існує гарантія теореми про те, що має унікальне розріджене рішення c (докладнішу інформацію див. У додатку).c

argminc1subject to y=Xc
c

Чи існує аналогічна теорема для лассо? Якщо є така теорема, вона не тільки гарантує стабільність ласо, але й надасть лассо більш змістовне тлумачення:

lasso може виявити вектор розрідженого коефіцієнта регресії c який використовується для генерування відповіді y на y=Xc .

Я задаю це питання двом причинам:

  1. Я думаю, що "ласо сприяє рідкісному рішенню" - це не відповідь на те, навіщо використовувати ласо для вибору функцій, оскільки ми навіть не можемо сказати, у чому перевага вибраних нами функцій.

  2. Я дізнався, що Лассо відомий тим, що нестійкий для вибору функцій. На практиці нам доводиться запускати зразки завантажувальної програми, щоб оцінити її стабільність. Яка найважливіша причина, що викликає цю нестабільність?


Додаток:

Дано XN×M=(x1,,xM) . c - Ω розріджений вектор ( ΩM ). Процес y=Xc породжує відповідь y . Якщо X має NSP (властивість нульового простору) порядку Ω та коваріаційна матриця X не має власного значення, близького до нуля, з'явиться унікальне рішення

argminc1subject to y=Xc
, який в точності c , що дає y .

Те, що ця теорема також говорить, це також, якщо не має NSP порядку , вирішувати .XΩargminc:y=Xcc1


Редагувати:

Отримавши ці чудові відповіді, я зрозумів, що розгубився, коли задав це питання.

Чому це питання бентежить:

Я прочитав дослідницький документ, в якому ми маємо вирішити, скільки функцій (стовпців) матиме матриця проекту (допоміжні функції створюються з первинних ознак). Оскільки це типова задача, очікується , що буде добре побудований таким чином, що рішення ласо може бути хорошим наближенням до реального розрідженого рішення.XN×Mn<pD

Міркування зроблено з теореми, яку я згадав у додатку: Якщо ми прагнемо знайти -розгалужений розчин , краще мати NSP порядку .ΩcXΩ

Для загальної матриці , якщо порушено, тоN×MN>CΩlnM

не можливе стабільне і надійне відновлення з іcDP

D відповідає , відповідаєXPy

... як очікується від зв'язку , вибір дескриптора стає більш нестабільним, тобто для різних навчальних наборів вибраний дескриптор часто відрізняється ...N=CΩlnM

Друга цитата - це частина, яка мене бентежить. Мені здається, коли нерівність буде порушена, це не просто рішення, можливо, унікальне (не згадане), але дескриптор також стане більш нестабільним.


2
Тільки для контексту проблема оптимізації, яку ви записуєте на початку свого Q, називається "базовою гонитвою". Якщо ви заміните рівність на приблизну рівність (до деякої помилки L2), то це називається "базисна переслідування, що позначає". Основа переслідування позначає математично еквівалент ласо. y=XcyXc
амеба

Тут ви знайдете корисний набір слайдів (але не простий): pages.iu.edu/~dajmcdon/research/talks/lasso.pdf та теорему про безкоштовний обід для користувачів.ece.utexas.edu/ ~cmcaram/pubs/ XuCaramanisMannor.NFL.pdf
Xavier Bourret Sicotte

Теорема, яку ви цитуєте, стосується унікальності. Ваше запитання заплутане, оскільки унікальність не обов'язково пов'язана зі стабільністю.
амеба

2
Так, я вважаю, що ОП дещо плутається, і питання не зрозуміле, отже, різні можливі відповіді ... Унікальність полягає в одному наборі точок даних, стабільність застосовується для перехресної перевірки, або завантажувальної програми, або нових точок даних
Xavier Bourret Sicotte

Відповіді:


8

ОНОВЛЕННЯ

Дивіться цей другий пост щодо відгуків Макдональдса щодо моєї відповіді, де поняття послідовності ризику пов'язане зі стабільністю.


1) Унікальність проти стійкості

На ваше питання важко відповісти, оскільки в ньому згадуються дві дуже різні теми: унікальність та стабільність .

  • Інтуїтивно зрозуміле, рішення є унікальним, якщо давати фіксований набір даних, алгоритм завжди дає однакові результати. Обкладинка відповіді Мартіна дуже детально розглядає цей момент.

  • Стабільність, з іншого боку, може бути зрозуміла інтуїтивно як така, для якої передбачення не сильно змінюється, коли дані тренувань незначно змінюються.

Стабільність застосовується до вашого запитання, оскільки вибір особливостей Лассо (часто) здійснюється за допомогою перехресної перевірки, отже, алгоритм Лассо виконується на різних складках даних і кожен раз може давати різні результати.

Стабільність та теорема безвільного обіду

Використовуючи визначення звідси, якщо ми визначимо Єдину стабільність як:

Алгоритм має рівномірну стабільність щодо функції втрати якщо виконується наступне:VβV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

Розглядаючи як функцію , термін можна записати як . Ми говоримо, що алгоритм стабільний, коли зменшується як .mββmβm1m

тоді "Теорема вільного обіду, Сюй і Караміс (2012)" стверджує, що

Якщо алгоритм розріджений , в тому сенсі, що він ідентифікує зайві функції, то цей алгоритм не є стабільним (і рівномірна зв'язана стабільність не йде до нуля). [...] Якщо алгоритм стабільний, то немає сподівання, що він буде рідким. (сторінки 3 і 4)β

Наприклад, регресія є стабільною і не визначає зайвих ознак, тоді як регульована регресія (Lasso) нестабільна. L2L1

Спроба відповісти на ваше запитання

Я думаю, що "ласо підтримує рідкісне рішення" - це не відповідь на те, чому використовувати "ласо" для вибору функцій

  • Я не погоджуюся, що причина, коли Лассо використовується для вибору особливостей, полягає в тому, що він дає розріджене рішення і може бути показано, що він має властивість IRF, тобто визначає надлишкові функції.

Яка найважливіша причина, що викликає цю нестабільність

  • Теорема без вільного обіду

Йдемо далі

Це не означає, що поєднання перехресної валідації та лассо не працює ... насправді було експериментально (і з великою кількістю підтримуючої теорії) дуже добре працювати в різних умовах. Основні ключові слова тут - послідовність , ризик, нерівності оракул тощо.

Наступні слайди та папір McDonald та Homrighausen (2013) описують деякі умови, за яких вибір функцій Лассо працює добре: слайди та папір: "Ласо, наполегливість та перехресна перевірка, Макдональд та Хомріггаузен (2013)" . Сам Тібшірані також опублікував чудовий набір приміток про обмеженість , лінійну регресію

Різні умови послідовності та їх вплив на Лассо є активною темою дослідження і, безумовно, не є тривіальним питанням. Я можу навести вас на деякі дослідницькі роботи, які є актуальними:


1
Дякую за всебічну відповідь! Набір слайдів, які ви надаєте, просто чудовий!
meTchaikovsky

1
Я все ще намагаюся обробити це визначення стабільності. Мій переклад полягає в тому, що "алгоритм стабільний, якщо зміна функції помилки / втрати в перехресній валідації, що залишилася, має верхню мету яка зменшується як ", коли ми збільшуємо кількість складки / тестові набори "β1m , я сподіваюся, що я це зрозумів. Цікаво, чому це бажана властивість, щоб змусити ласо працювати добре (а точніше - цікаво, чи це необхідна властивість)"
Sextus Empiricus

1
Так, крім m - кількість точок даних. дивіться тут сторінку 7 для вірогідної межі: math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf - справа в тому, що при обмеженні табл. для далеких функцій гіпотези залежно від конкретного набору даних. Ось чому пропонуються альтернативні умови, які стосуються основної структури розподілу та кореляції (я думаю), але потребуватимемо допомоги, щоб зробити їх більш зрозумілими
Xavier Bourret Sicotte

Ще одне важливе поняття - це послідовність, як пояснено, наприклад: stat.ethz.ch/~nicolai/stability.pdf - як стабільність і послідовність пов'язані незрозуміло, але, здається, є предметом активних досліджень, наприклад, cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte

Гарна відповідь! Чи можете ви також оновити деякі посилання з більш детальними описами, якщо самі посилання в майбутньому загинуть? (Я вже зробив один для вас.)
Річард Харді,

7

Коментарі від Daniel J. McDonald

Доцент з університету Індіани Блумінгтон, автор двох робіт, згаданих в оригінальній відповіді Ксав'є Бурета Сікотта .

Ваше пояснення, як правило, цілком правильне. Я хотів би зазначити кілька речей:

  1. Нашою метою в серії робіт про CV та лассо було довести, що "Лассо + перехресна перевірка (CV)" робить так само, як "Лассо + оптимальна "λ . Зокрема, ми хотіли показати, що прогнози роблять також (без моделей). Для того, щоб робити твердження про правильне відновлення коефіцієнтів (знаходження правильних нерідких коефіцієнтів), потрібно припустити розріджену істину, чого ми не хотіли робити.

  2. Алгоритмічна стійкість передбачає послідовність ризику (я вважаю, що вперше довели Буске та Еліссефф). Під послідовністю ризику я маю на увазі, щопереходить до нуля, де f або або найкращий предиктор у межах якогось класу, якщо клас неправильно визначений. Однак це лише достатня умова. Це згадується на слайдах, до яких ви посилаєтесь, як, по суті, "можлива техніка доказування, яка не буде працювати, оскільки ласо не є стабільним".||f^(X)f(X)||E[Y|X]

  3. Стабільність лише достатня, але не потрібна. Ми змогли показати, що в деяких умовах прогнозується "lasso + CV", а також "lasso + Optimum ". Папір, яку ви цитуєте, дає найслабші припущення (ті, які є на слайді 16, які дозволяють ), але використовує обмежену форму ласо, а не більш поширену версію Лагранжа. Інший документ ( http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html ) використовує версію лагранжа. Це також показує, що за набагато сильніших умов вибір моделі також буде працювати. Найновіший документ ( https://arxiv.org/abs/1605.02214 ) інших людей стверджує, що покращити ці результати (я не читав його уважно).λp>n

  4. Загалом, оскільки ласо (або будь-який алгоритм відбору) не є стабільним, потрібно більш ретельний аналіз та / або вагомі припущення, щоб показати, що "алгоритм + резюме" вибере правильну модель. Я не знаю необхідних умов, хоча це було б надзвичайно цікаво. Не надто важко показати, що для фіксованої лямбда передбачувач ласо локально є Ліпшицем у векторі (я вважаю, що це робить одна чи кілька робіт Райана Тібшірані). Якщо можна також стверджувати, що це справедливо в , це було б дуже цікаво і актуально тут.YXi

Основний винос , що я хотів би додати до відповіді: «стабільність» означає «ризик-послідовність» або «точність передбачення" Це також може означати "параметр оцінки відповідності" при більш припущеннях Але безкоштовний обід означає теорема "вибір" .. "не стабільний". Лассо не стабільний навіть з фіксованою лямбдою. Це, безумовно, нестабільний, тому поєднується з резюме (будь-якого типу). CV Унікальність тут несуттєва.


5

Лассо, на відміну від регресії Рейда (див., Наприклад, Hoerl and Kennard, 1970; Hastie et al., 2009), не завжди має унікальне рішення, хоча, як правило, воно є. Це залежить від кількості параметрів у моделі, від того, чи є змінні безперервними чи дискретними, та рангом вашої проектної матриці. Умови унікальності можна знайти в Tibshirani (2013).

Список літератури:

Хасті, Т., Тібшірані, Р. та Фрідман, Дж. (2009). Елементи статистичного навчання . Спрингерська серія в статистиці. Спрингер, Нью-Йорк, 11-е друк, 2-е видання.

Hoerl, AE та Kennard, RW (1970). Регресія хребта: Об'єктивна оцінка неортогональних проблем. Технометрія , 12 (1), 55-67.

Tibshirani, RJ (2013). Проблема та унікальність ласо. Електронний журнал статистики , 7, 1456-1490.


@ Дякую! Чи можете ви додати короткий підсумок тих посилань, які ви надаєте?
meTchaikovsky

Hasite та ін. (2009) - книга, яка охоплює безліч тем, серед яких регресія Лассо та Рідж. Це варто прочитати, і його можна завантажити з домашньої сторінки Hastie: web.stanford.edu/~hastie/ElemStatLearn/download.html Hoerl & Kennard (1970) - це класична довідка про регресію Рідж, і, ймовірно, не має значення для вашого питання безпосередньо, інше ніж читати про регрес хребта. Tibshirani (2013) містить інформацію про те, коли в Лассо є унікальне рішення (і коли він має нескінченну кількість рішень).
Філ

3

Що спричиняє неповторність.

Для векторів (де є знаком, що позначає, чи буде зміна збільшуватися чи зменшуватися ), коли вони будуть афінно залежними:s i c ic 1sixisicic1

αisixi=0andαi=0

то існує нескінченна кількість комбінацій , які не змінюють рішення і норму . X c c 1ci+γαiXcc1

Наприклад:

y=[11]=[210111][c1c2c3]=Xc

має для рішення:c1=1

[c1c2c3]=[010]+γ[121]

з0γ12

Ми можемо сортувати заміну вектора , використовуючиx2x2=0.5x1+0.5x3


Ситуації без цієї умови

У статті Тібшірані (з відповіді Філа) описано три достатні умови, щоб Ласо отримав унікальне рішення.

  1. Лінійно незалежні Коли нульовий простір дорівнює нулю або еквівалентно, коли ранг дорівнює кількості стовпців (M). У такому випадку у вас немає лінійних комбінацій, як вище.XX
  2. Виразно незалежні, коли стовпці знаходяться в загальному положенні.Xs

    Тобто жоден стовпчик не представляє точки в розмірній площині . площина k-2 може бути параметризована будь точками як з . З - точкою у цій самій площині ви мали б умови зkk2k1αisixiαi=1ksjxjαisixiαi=0

    Зауважте, що у прикладі стовпці , та знаходяться в одному рядку. (Однак тут трохи незручно, оскільки знаки можуть бути негативними, наприклад, матриця має а також немає унікального рішення)x1x2x3[[21][11][01]]

  3. Коли стовпці мають постійний розподіл, то навряд чи (майже вірогідність нуля) у вас будуть стовпці не в загальному положенні.XXX

    На противагу цьому, якщо стовпці є категоріальною змінною, то ця ймовірність не обов'язково майже дорівнює нулю. Ймовірність того, що для неперервної змінної буде дорівнює деяка множина чисел (тобто площин, що відповідають афінному проміжку інших векторів), є майже «нульовою». Але це не стосується дискретних змінних.X


+1, але я думаю, що те, що мається на увазі під нестабільним в останніх дискусіях, пов'язане з вибором функцій за допомогою перехресної перевірки за наявності кореляційних особливостей
Xavier Bourret Sicotte

@XavierBourretSicotte Ви маєте на увазі, що навіть коли існує унікальне рішення, процес вибору може бути нестабільним через корельовані функції, що додають проблем (чисельно) знайти це унікальне рішення? Це трохи заплутано, оскільки питання задає, з одного боку, стабільність, а з іншого - унікальність.
Секст Емпірік

Так, саме це я маю на увазі, не обов'язково через числову нестабільність, а через властиві відмінності складок даних (під час CV), які призводять до різних рішень для різних значень в складках. У може бути ще гірше під час завантаженняλ
Xavier Bourret Sicotte

@XavierBourretSicotte У мене наразі немає чіткої інтуїтивної картини, чому це (різні рішення для різних та навчальних наборів) має бути нестабільним. Я думаю, ви можете опублікувати це як відповідь і пояснити це. λ
Секст Емпірік

@Martijn Weterings Дякую! У мене ще три питання: 1. як я виявляю афінну залежність? Чи слід дізнатися, чи незалежні ( math.stackexchange.com/q/82189 )? 2. як слід визначити на практиці? 3. що означає "загальна позиція" ? s i X{v1v0,v2v0,,vkv0}siX
meTchaikovsky
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.