LASSO з умовами взаємодії - це добре, якщо основні ефекти скорочуються до нуля?


25

Регресія LASSO зменшує коефіцієнти до нуля, забезпечуючи ефективний вибір моделі. Я вважаю, що в моїх даних є змістовні взаємодії між номінальними та безперервними коваріатами. Однак, не обов'язково, що "основні наслідки" справжньої моделі є змістовними (не нульовими). Звичайно, я цього не знаю, оскільки справжня модель невідома. Мої цілі - знайти справжню модель і прогнозувати результат як можна ближче.

Я дізнався, що класичний підхід до побудови моделі завжди включав би головний ефект до включення взаємодії. Таким чином, не може бути моделі без головного ефекту двох коваріатів і якщо в одній моделі взаємодія коваріатівОтже, функція ретельно вибирає умови моделі (наприклад, на основі AIC назад або вперед), дотримуючись цього правила.ХZХZstepR

LASSO, здається, працює інакше. Оскільки всі параметри штрафуються, може, без сумніву, статися, що основний ефект зменшиться до нуля, тоді як взаємодія найкращої (наприклад, перехресної) моделі не дорівнює нулю. Це я вважаю , зокрема , для моїх даних при використанні R«s glmnetпакет.

Я отримав критику на підставі першого правила, процитованого вище, тобто моя остаточна схвалена модель Лассо не включає відповідні умови основного ефекту деяких ненульових взаємодій. Однак це правило видається дещо дивним у цьому контексті. Що зводиться до цього, це питання, чи параметр у справжній моделі дорівнює нулю. Припустимо, це так, але взаємодія не дорівнює нулю, тоді LASSO визначить це, можливо, знайшовши правильну модель. Насправді, здається, що прогнози цієї моделі будуть більш точними, оскільки модель не містить основного ефекту "справжній нуль", який фактично є змінною шуму.

Чи можу я спростувати критику на цій підставі чи я повинен якось попереджувати, що LASSO включає головний ефект перед терміном взаємодії?


2
Хтось заборонив цьому. Мені було б цікаво чому ...
tomka

1
Ваші цілі передбачення, висновок чи щось інше?
Ендрю М

@AndrewM Я хочу якомога краще оцінити справжню модель, інтерпретувати змінні, що викликають залежні змінні, а також використовувати передбачені значення.
tomka

2
Для вашої першої мети зауважте, що перехресне підтвердження не відповідає для вибору моделі. Насправді було показано, що модель, що є "справжньою" моделлю, як правило, є підмножиною тієї, яка максимізує нашу оцінку прогнозних показників. Щодо другої вашої мети, зауважте, що ласо дає чітко упереджені оцінки. Тому я думаю, що вам потрібно вирішити, яка ваша основна мета, і відредагувати своє запитання, щоб уточнити, перш ніж можна запропонувати корисну пораду.
Андрій М

@AndrewM моє питання: чи повинен основний ефект бути включений у модель при використанні LASSO? На це питання можна відповісти обидва мої заперечення окремо. Я не думаю, що питання потребує подальшого внесення змін, але важливо вказати на ці цілі, див. Редагування у першому параграфі.
tomka

Відповіді:


10

Одна з проблем у відповіді на це питання полягає в тому, що важко узгодити LASSO з ідеєю "справжньої" моделі в більшості реальних додатків, які, як правило, мають незначні кореляції серед змінних прогнозів. У такому випадку, як і будь-яка методи змінної селекції, конкретні прогнози, повернуті з ненульовими коефіцієнтами за LASSO, залежатимуть від капризів вибірки з базової сукупності. Ви можете перевірити це, виконавши LASSO на декількох зразках завантажувальної програми з одного набору даних і порівнявши набори повернених змінних, що повертаються.

Крім того, як @AndrewM зазначив у коментарі, упередженість оцінок, наданих LASSO, означає, що ви не будете прогнозувати результати "як можна ближче". Швидше, ви прогнозуєте результати, які базуються на конкретному виборі неминучого компромісного зміщення.

Отож, враховуючи ці труднощі, я би сподівався, що ви хочете знати самі, а не просто для задоволення критики, величини основних ефектів змінних, які сприяють взаємодії. У R, glinternet , є пакет , який, здається, робить саме те, що вам потрібно (хоча я з цим не маю досвіду):

Group-Lasso INTERaction-NET. Підходить для лінійних парних моделей взаємодії, що задовольняють сильну ієрархію: якщо коефіцієнт взаємодії оцінюється як ненульовий, то два його пов'язані основні ефекти також мають ненульові оцінені коефіцієнти. Містить категоричні змінні (коефіцієнти) з довільною кількістю рівнів, безперервними змінними та їх комбінаціями.

Крім того, якщо у вас немає занадто багато прогнозів, ви можете замість цього розглянути регресію хребта, яка поверне коефіцієнти для всіх змінних, які можуть бути набагато менш залежними від капризів вашого конкретного зразка даних.


9

Я спізнююсь на вечірку, але ось кілька моїх думок щодо вашої проблеми.

  1. lasso вибирає те, що є інформативним. Розглянемо лассо як метод отримання найвищої прогнозованої продуктивності з найменшою кількістю функцій. Зовсім добре, що в деяких випадках ласо вибирає взаємодію, а не основні ефекти. Це просто означає, що основні ефекти не інформативні, а взаємодії є.

  2. Ви просто доповідаєте, що дізналися. Ви використовували якийсь метод, і це дало певні результати. Ви повідомляєте про це прозоро, що дозволяє відтворювати. На мою думку, ваша робота зроблена. Результати об'єктивні, ви знайшли те, що знайшли, і не ваша робота виправдовувати, чому ви не знайшли щось інше.

  3. Усі одиниці довільні. Взаємодії - це лише одиниці. Скажімо, ви вивчаєте кольори. Кольори можуть бути включені у вашу модель як довжина хвилі, або довжина хвилі журналу, або як 3 змінних RGB, або як взаємодія відтінку та відтінку тощо. Немає по суті правильного чи неправильного зображення кольорів. Ви оберете той, який має найбільше значення для вашої проблеми. Взаємодії - це також лише одиниці, якими ви можете скористатися довільно. Площа вікна - це лише взаємодія його висоти та ширини, чи слід включати висоту та ширину вікна у вашу модель? Швидкість - це лише взаємодія маси та швидкості. А Швидкість - це лише взаємодія часу та відстані. Спорядження - це лише взаємодія часу та кількості працюючих людей. Математично дозована доза * вік така ж, як висота * ширина. Приказка "Ви завжди повинні включати основні ефекти" завищена.

  4. lasso не наближає до реальної моделі, вона не призначена для висновку, а вибрані змінні нестабільні. Якщо ви співвідносили інформативні прогнози, ласо має тенденцію вибирати одне, а інші натискати на 0, тому ваша модель опустить значну частку інформативних змінних. Крім того, як було зазначено в коментарях, якщо ви знайдете найкращу лямбда в перехресній валідності, ласо вибере більше змінних, ніж реальна модель. Інша проблема полягає в тому, що вибірки з ласо нестабільні. Отже, якщо ви знову запустите ласо на іншій вибірці від популяції, ви закінчите інший набір вибраних змінних. Отже, не надавайте великої ваги тому, які вибрані змінні. Крім того, бета-файли є упередженими, тому їх не можна використовувати для тестування класичної параметричної гіпотези. Однак існують способи (наступний пункт)

  5. умовивод з ласо. Лассо можна використовувати для того, щоб зробити висновок щодо прогнозів. Найпростіший спосіб - це завантажити його і порахувати, скільки разів обрана кожна змінна, розділити на кількість повторних проб і мати свої p-значення. P у такому випадку є ймовірністю вибору змінної за допомогою ласо. Ви все ще можете отримати значні ефекти взаємодії та незначні основні ефекти, але це не проблема, це може статися і при тестуванні звичайних гіпотез. Велика обробка цієї теми в Hastie et. ін. безкоштовна книга: Статистичне навчання з ощадливістю, глава 6 http://web.stanford.edu/~hastie/StatLearnSparsity/Запуск завантажувача може бути виконаний для всього діапазону значень лямбда, що призведе до шляху стабільності для всіх змінних. Це може бути розширено підходом до вибору стабільності, щоб знайти набір значущих змінних, виправлених на помилки сімейного значення. http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2010.00740.x/abrief Є також деякі інші методи для висновку з ласо, які можуть бути корисними. А саме адаптивне ласо або деспарсифіковане ласо. Огляд з реалізацією R наведено тут: DOI: 10.1214 / 15-STS527 або IMO, більш доступне пояснення у книзі Buhlmanm, van de Geer: Статистика високомірних даних http://www.springer.com/la/book/9783642201912

  6. Інші речі, пов'язані з ласо, про які слід знати. Наскільки мені відомо, хребет або еластична сітка, як правило, перевершує ласо. Якщо є доменні знання про змінні, групове ласо або рідке групове ласо може бути використане для того, щоб змусити ласо або тримати або відкинути всю групу предикторів, а не лікувати їх окремо (наприклад, генетичні шляхи, фіксований коефіцієнт змінної фактора). Для просторових або упорядкованих даних можна використовувати злиті ласо. Рандомізоване ласо, представлене у згаданому вище документі про вибір стабільності, має тенденцію випускати більш рідкісні моделі з тими ж показниками, що і стандартні ласо.


1
дуже сподобалось # 3
user4581

0

У мене є додаток, де я конкретно хочу, щоб мала кількість головних ефектів не була покарана. Нехай Y = X.основна бета + X.inter beta.inter + eps

а) fit.Y = OLS (X.main, Y). Нехай tilde.Y = Y - передбачить (fit.Y, X.main) b) fit [, j] = OLS (X.main, X.inter [, j]) для j = 1 ... k. Нехай tilde.X.inter [, j] = X.inter [, j] - передбачити (fit.j, X.main) c) fit = Lasso (tilde.X.inter, tilde.y). Коефіцієнт основного ефекту дорівнює fit.Y - coef (fit) * fit [, 1: dim (X.inter) [2]]. Коефіцієнт ефекту взаємодії дорівнює коефіцієнту (придатності)

На кроках a і b не потрібно робити розбиття зразків. Це працює для мене!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.