В яких умовах ви б очікували, що модель, знайдена LARS, сильно відрізняється від моделі, знайденої при вичерпному пошуку?


9

Трохи більше інформації; припустимо, що

  1. ви заздалегідь знаєте, скільки змінних вибрати, і що ви встановили штраф складності в LARS процедурі, щоб мати саме стільки змінних з не 0 коефіцієнтами,
  2. витрати на обчислення - це не проблема (загальна кількість змінної невелика, скажімо, 50),
  3. що всі змінні (y, x) є безперервними.

У яких умовах модель LARS (тобто примір OLS тих змінних, що мають ненульові коефіцієнти в LARS), може найбільше відрізнятися від моделі з однаковою кількістю коефіцієнтів, але виявленої шляхом вичерпного пошуку (a la regsubsets ())?

Редагувати: я використовую 50 змінних і 250 спостережень з реальними коефіцієнтами, отриманими зі стандартного гаусса, за винятком 10 змінних, що мають "реальні" коефіцієнти 0 (і всі функції сильно корелюються між собою). Ці параметри, очевидно, непогані, оскільки відмінності між двома наборами вибраних змінних є хвилиновими. Це справді питання про те, який тип конфігурації даних повинен імітувати, щоб отримати найбільшу кількість відмінностей.

Відповіді:


1

Ось опис алгоритму LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.html Цей вид ігнорує кореляцію між регресорами, тому я б ризикну здогадатися, що він може пропустити придатність у випадку мультиколінеарності.


ось що насправді мотивує моє запитання. Я імітував налаштування з 50 змінних, де найбільше значення vif перевищує 30, і я все ще бачу дуже мало відмінностей (наприклад, щодо R ^ 2 вибраних моделей) між двома підходами.
user603

1
Я сам знайшов різні відповіді за допомогою stepAIC та lars і міг би уявити, що моє питання стосується групи LASSO - мова не про VIF всієї матриці, а про кількість кластерів корельованих змінних.
Алекс

Інтересую ... як ти генеруєш такі дані? (тобто з кластерами корельованих змінних)
user603

Складіть разом кілька незалежних груп із співвідношенням всередині них. Я сам маю купу тих же запитань щодо низки брендів - люди, як правило, подобаються бренду за власним вибором і не люблять інших.
Алекс

3

Чим більше функцій у вас щодо кількості зразків, тим більше перенапруги ви, швидше за все, отримаєте з екстенсивним методом пошуку, ніж з LARS. Термін покарання, що використовується в LARS, накладає вкладену структуру все більш складних моделей, індексованих єдиним параметром регуляризації, тому "ступінь свободи" вибору ознак при LARS досить низька. Для екстенсивного пошуку існує фактично одна (двійкова) ступінь свободи на функцію, що означає, що екзакутивний пошук може краще використовувати випадкову мінливість у критерії вибору ознак за рахунок випадкової вибірки даних. Як результат, екстрасивна модель пошуку, ймовірно, сильно підходить до критерію вибору ознак, оскільки "клас гіпотез" більший.


Ваша відповідь здається не пов'язаною з моїм запитанням. Щоб зрозуміти: мені дуже цікаво генерувати ситуації, коли підмножина змінних, вибраних як активних LARS, буде найбільш відрізнятися від вибраних шляхом вичерпного пошуку, при цьому вимірюється, скажімо, різниця R ^ 2 між моделлю LARS і вичерпна модель пошуку з однаковою кількістю активної змінної . Чи можете ви придумати будь-який противник, коли ця різниця була б великою? Чи можете ви переформулювати свою відповідь у цих термінах?
user603

3
Моя відповідь безпосередньо пов'язана з вашим запитанням. Ступінь перевитрати не контролюється лише кількістю ознак, а й значеннями ваг. Таким чином, можливо переобладнати без використання додаткових функцій. LARS накладає штраф на величину ваг, тому він не вибирає функції, які лише зменшують втрати в квадраті за рахунок великої ваги, тому саме вона менш схильна до перенапруження. Екстрасистивні методи пошуку - це в основному рецепт надмірного пристосування, тому ви отримаєте дуже різні рішення в ситуаціях, коли, швидше за все, може виникнути переналагодження.
Дікран Марсупіал

Гаразд, я розумію: це походить від чогось, про що я заглянув у своєму первісному запитанні (і, сподіваюся, зараз ясніше). Я дійсно порівнюю тут яблуко з яблуками (тобто вибраними моделями), або іншими словами, (R ^ 2) OLS підходить, використовуючи ті змінні, вибрані LARS, і (R ^ 2) OLS, які відповідають цим змінні, вибрані вичерпним пошуком. Я не використовую безпосередньо коефіцієнти LARS ....
user603

3
Це не ортогонально, одна модель навряд чи буде кращою за іншу, не відрізняючись від іншого. У ситуаціях, коли можлива непомірна відповідність, модель, заснована на пошуку, може бути нестабільною, тобто якщо ви зіберете 500 зразків, ви, ймовірно, отримаєте інший набір функцій. ЛАРС, з іншого боку, м'якотілий, щоб бути більш стійким. Від того, чи буде 50 можливостей і 500 зразків подібним до надмірного розміру, залежить від характеру набору даних, але це, безумовно, можливо. Вичерпний пошук може підбирати особливості, що пояснюють мінливість, властиву цьому зразку; ЛАРС менше.
Дікран Марсупіал

2
Це може допомогти, якщо ви можете пояснити, чому ви хочете це зробити. Я підозрюю, що вам потрібно подивитися, - це величини ваг справжньої моделі, а також розподілу даних. Моделі санкціонованої регресії (LASSO, LARS, Elaris net, регресія хребта) мають попередній очікуваний розподіл ваг, тому, якщо у вас є набір даних, де це недійсно, це може бути гарним місцем для початку.
Дікран Марсупіал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.