Якщо p> n, ласо вибирає не більше n змінних


13

Одним із мотивів еластичної сітки було таке обмеження LASSO:

У випадку ласо вибирає не більше n змінних, перш ніж воно насичується, через характер проблеми опуклої оптимізації. Це, здається, є обмежувальною особливістю для способу вибору змінних. Більше того, ласо не є чітко визначеним, якщо обмежена на L1-норма коефіцієнтів менша за певне значення.p>n

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

Я розумію, що LASSO - це проблема квадратичного програмування, але її також можна вирішити за допомогою LARS або градієнтного спуску. Але я не розумію, де в цих алгоритмах я стикаюся з проблемою, якщо де p - кількість предикторів і n - розмір вибірки. І чому ця проблема вирішується за допомогою еластичної сітки, де я збільшую задачу на p + n змінних, що явно перевищує p .p>npnp+np


2
Якщо lasso обмежує використання до збереження p <= n, то це є недоліком, а не чеснотою. перевиконання - це серйозна проблема, яка виникає, коли p = n. Модель з p = n є насиченою моделлю, і часто ця модель перевершує, оскільки вона ідеально підходить до спостережуваних даних, але не обов'язково добре передбачати майбутні випадки.
Майкл Р. Черник

3
Те, що ласо вибирає лише до змінних, може бути розцінено як наслідок того, що його можна вирішити, використовуючи (незначну модифікацію) алгоритму LARS, який лише в один момент допускає до n змінних в активний набір. Те, що це не має значення у випадку пружної сітки, по суті випливає з включення штрафу 2, і так веде себе як регресія хребта, остання з яких, як правило, призводить до того, що всі коефіцієнти є ненульовими. nn2
кардинал

Дякую за відповіді, і як я бачу спуск градієнта, який можна вибрати не більше ніж n змінних: Презентація на cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ ... Папір (розділ 4) на datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731

3
@user: Я думаю, ви можете зіткнути математичну задачу з її чисельним рішенням. Алгоритм LARS показує, що рішення lasso вибере щонайбільше змінних. Це не залежить від фактичного числового засобу для досягнення рішення, тобто алгоритм LARS дає уявлення про проблему, але, звичайно, будь-який інший метод, який рівномірно вирішує проблему, повинен мати однакову властивість! :-)n
кардинал

Розглянемо функцію, дублювану разів. Існуватиме оцінювач ласо з точно р ненульовими точками (навіть якщо p > n ). Тому ваше твердження не відповідає дійсності як написане. ppp>n
user795305

Відповіді:


10

Як було сказано, це не властивість алгоритму, а проблема оптимізації. Умови KKT в основному дають, що для коефіцієнта який не дорівнює нулю, він повинен відповідати фіксованій кореляції із залишковим | X t j ( y - X β ) | = λ ( λ - параметр регуляризації).βj|Xjt(yXβ)|=λλ

Після вирішення різних ускладнень з абсолютним значенням тощо вам залишається лінійне рівняння для кожного ненульового коефіцієнта. Оскільки ранг матриці становить максимум n, коли p > n , це кількість рівнянь, які можна розв’язати, і, отже, є максимум n ненулів (якщо немає надмірностей).Xnp>n

До речі, це стосується будь-якої функції втрат, не тільки стандартного ласо з втратою . Тож насправді це властивість штрафу за ласо. Існує багато статей, які демонструють цей погляд на KKT та висновки, що випливають із них. Я можу вказати на нашу статтю: Rosset and Zhu, Piecewise Linear Regularized Solutions Paths, Annals of Stats 2007 та посилання на них.L2


Що означає ККТ? Крім того, чи можна мати на увазі втрату L1, коли говорити про стандартне ласо?
miura

Привіт Сахарон і ласкаво просимо на сайт. Ви можете використовувати LaTeX, щоб зробити формули акуратнішими (я це зробив у вашій відповіді), і вам не потрібно підписувати свої повідомлення, оскільки підпис додається автоматично.
Пітер Флом - Відновіть Моніку

1
@miura: KKT означає Каруш-Кун-Таккер. Умови KKT - це певні рівняння, яким повинні відповідати рішення (достатньо регулярні) проблеми оптимізації ( стаття wikipedia ).
mogron

Я просто бачу, що Райан Тібшірані має дуже відповідний робочий документ "Проблема та унікальність Лассо": stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731

6

n<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

зменшився.


(+1) Тут є розрив: дивіться мій коментар до публікації ОП.
користувач795305
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.