Налаштування порядку відставання?


9

Припустимо, у мене є поздовжні дані форми Y=(Y1,,YJ)N(μ,Σ)(У мене є кілька спостережень, це просто форма єдиного). Мене цікавлять обмеження щодоΣ. Без обмеженьΣ еквівалентно прийому

Yj=αj+=1j1ϕjYj+εj
з εjN(0,σj).

Зазвичай це не робиться, оскільки це вимагає оцінки O(J2)параметри коваріації. Модель "lag-k"якщо ми візьмемо

Yj=αj+=1kϕjYj+εj,
тобто ми використовуємо лише попереднє k терміни передбачити Yj з історії.

Те, що я дуже хотів би зробити, - це використовувати якусь ідею усадки, щоб звести нанівець деякі з них ϕj, як LASSO. Але річ у тому, що я також хотів би, щоб метод, який я використовую, віддав перевагу моделям, які відстають -k для деяких k; Я б хотів штрафувати відставання вищого порядку більше, ніж відставання нижчого порядку. Я думаю, що це ми особливо хотіли б зробити, враховуючи, що прогнози сильно корелюються.

Додатковим питанням є те, що якщо (скажімо) ϕ35 скорочується до 0 Я також хотів би, якби ϕ36 скорочується до 0, тобто однаковий відставання використовується у всіх умовних розподілах.

Я міг би спекулювати на цьому, але не хочу винаходити колесо. Чи є якісь методи LASSO, розроблені для вирішення подібних проблем? Невже мені краще повністю робити щось інше, як поетапне включення лагових замовлень? Оскільки мій простір моделі невеликий, я навіть міг би використовувати anL0 пені за цю проблему, гадаю?

Відповіді:


2

Ви можете зробити перехресну перевірку кілька разів від k = 0 до будь-якого максимуму та побудувати графік продуктивності проти k. Оскільки модель тестується на даних, яких раніше не бачили, немає гарантії, що складні моделі працюватимуть краще, і справді ви повинні побачити погіршення продуктивності, якщо модель стане занадто складною через переозброєння. Особисто я вважаю, що це безпечніше і простіше виправдати, ніж мати довільний штрафний коефіцієнт, але ваш пробіг може відрізнятися.

Я також не дуже слідкую за тим, як замовлений Лассо відповідає на питання. Це здається занадто обмежуючим, воно повністю змушує впорядкувати коефіцієнти. Тоді як оригінальне запитання може закінчитися деякими даними, де є рішення деϕlj не суворо зменшується з l.


Щоб додати LaTeX до свого питання, додайте вираз між знаками долара ($).
Патрік Куломбе

1
(1) Тільки з моделі не очевидно, що впорядкування коефіцієнтів є бажаним, але по суті це розумно. Наприклад, у клінічному випробуванні з повторними заходами, наприклад, немає жодних суттєвих причин очікувати невеликого збуренняYj2 стохастично впливати Yj більше, ніж невелике збурення Yj1. Замовлений LASSO краще використовує це апріорне знання, з незначним ризиком того, що це може бути неправдою.
хлопець

(2) Загалом, я б не використовував цю стратегію резюме хоча б частково, оскільки вона занадто догматична. Я можу отримати кращі прогнози, якщо розумно скоротити відставання, а не викинути його цілком.
хлопець

Нір, корисний коментар до замовленого LASSO. Я відредагував свою відповідь, щоб бути трохи більш вичерпною. Дякую!
Шон Пасха

Спасибі Шон Хлопець, я не думаю, що це занадто догматично. Ви не встановлюєте ак у камінь, а дозволяєте йому змінюватись. Вибір, який він вибере, буде на початку набору. Я також категорично не згоден з вашим твердженням про передбачувані апріорні знання. Щось здається розумним і знаючи цю річ, зовсім інше. Я мушу визнати, що, здається, існує традиційний спротив перехрестити перевірку, яку я ніколи не розумів. Я вибрав би прогнозовану ефективність на основі вибіркових даних над додаванням припущень будь-якого дня.
Нір Фрідман

2

Наказав ЛАССО , здається, що ви шукаєте: Він обчислює регуляризоване коефіцієнти регресіїβ1...j як у стандартному LASSO, але з урахуванням додаткового обмеження, яке |β1||β2|...|βj|.

Це досягає другої мети - занулення коефіцієнтів для відставання вищого порядку, але є більш обмежувальним, ніж єдине обмеження віддати перевагу моделі нижчого відставання. І як зазначають інші, це важке обмеження, яке може бути дуже важко виправдати.

Розділившись застереженнями, у статті представлені результати методу як реальних, так і імітованих даних часових рядів, та деталізовані алгоритми для пошуку коефіцієнтів. У висновку згадується пакет R, однак документ є нещодавним, і пошук на CRAN для "замовленого LASSO" з'являється порожнім, тому я підозрюю, що пакет ще в розробці.

У статті також пропонується узагальнений підхід, в якому два параметри регуляризації "заохочують майже одноманітність". (Див. Стор. 6.) Іншими словами, слід налаштувати параметри, щоб забезпечити спокійне впорядкування. На жаль, не наводяться ні приклади, ні порівняння розслабленого методу. Але автори пишуть, що реалізація цієї зміни є простою справою заміни одного алгоритму іншим, тому можна сподіватися, що він стане частиною майбутнього пакету R.


Дякую, це дійсно цікаво, що це нещодавня ідея. Я насправді придумав ту саму ідею, що обговорював проблему з другом ще тоді, коли я задав це питання 9 місяців тому, але ніколи не досліджував його глибоко! Я просто припустив, що ідея була не тим романом, або що хтось ще написав про це документ.
хлопець

Досить ласкаво просимо! Я був здивований, що це було так недавно і я сам.
Шон Пасха

1

Вкладений штраф LASSO ( pdf ) може бути використаний, але для нього немає R-пакетів.


1
Наразі це скоріше коментар, ніж відповідь. Чи можете ви її трохи розширити, можливо, обговоривши вкладений штраф LASSO тощо?
gung - Відновити Моніку

0

Я знаю, що ви написали це як передумову, але я не використовував би замовлений LASSO, не будучи абсолютно впевненим, що це потрібна річ, тому що припущення замовленого LASSO безпосередньо не підходять для прогнозування часових рядів. В якості зустрічного прикладу розглянемо випадок, коли у вас є час затримки, скажімо, десяти часових кроків між вимірюванням і цільовим показником. Очевидно, впорядковані обмеження LASSO не можуть впоратися з такими ефектами, не привласнюючи нісенітницю першим дев'яти параметрам.

Навпаки, я б скоріше дотримувався звичайного LASSO і включав усі попередні спостереження - особливо тому, що ви написали, що ваш модельний простір невеликий, а програми оптимізації координат-спуску для LASSO (як описано тут ) працюють ефективно також для великих наборів даних. Потім обчисліть шлях для параметра регуляторної міцностіλ і подивіться, які параметри включаються, коли ви переходите від великих λ до λ=0. Особливо важливі з них.

Нарешті, ви повинні вибрати відповідний критерій та оптимізувати параметр λвикористовуючи перехресну перевірку, стандартну одновимірну мінімізацію чи будь-що інше. Критерій, наприклад, може бути таким, як "помилка передбачення + кількість включених змінних" (- критерій, схожий на AIC).


Я, очевидно, не був би зацікавлений у обмеженнях порядку коефіцієнтів, якби у мене не було сильних апріорних причин, щоб це повірити. Для моделей, на які я підозрюю, що це, ймовірно, замовлений LASSO повинен бути більш ефективним. Маючи коефіцієнт відставання 10 з іншими 9, що дорівнює 0, немає сенсу в моїх предметних обставинах. Це проблема, над якою працювали мої колеги (впорядкована усадка на основі логів), але вони використовували байесуанські ідеї, і тому не вважали б (не-байесівським) LASSO.
хлопець

Гаразд, ти, здається, знаєш, що робиш. Але пам’ятайте, що впорядкований LASSO сильніше обмежений, ніж ваше твердження "раз нуль - завжди нуль". Крім того, ви також можете розглянути модель, у якій параметри вводяться мультиплікативно. Тоді відносне значення може або зростати, або зменшуватися, поки коефіцієнт не стане нульовим.
davidhigh
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.