Модель ансамблю часових рядів


13

Мені потрібно автоматизувати прогнозування часових рядів, і я не знаю заздалегідь особливості цих серій (сезонність, тенденція, шум тощо).

Моя мета - не отримати найкращу можливу модель для кожної серії, а уникнути досить поганих моделей. Іншими словами, отримувати невеликі помилки кожен раз - не проблема, але отримувати великі помилки раз у раз - це є.

Я думав, що зможу досягти цього, комбінуючи моделі, розраховані з різними методиками.

Тобто, хоча ARIMA був би найкращим підходом для конкретної серії, це може бути не найкращим для іншої серії; те ж саме для експоненціального згладжування.

Однак, якщо я поєднаю одну модель з кожної техніки, навіть якщо одна модель не дуже хороша, інша наблизить оцінку до реальної вартості.

Загальновідомо, що ARIMA краще працює для довготривалих добре керованих серій, тоді як експоненціальне згладжування виділяється короткочасними галасливими серіями.

  • Моя ідея - поєднувати моделі, сформовані з обох методик, щоб отримати більш надійні прогнози, чи є сенс?

Можливо, існує багато способів комбінувати ці моделі.

  • Якщо це хороший підхід, як я повинен їх поєднувати?

Просте середнє значення прогнозів - це варіант, але, можливо, я міг би отримати кращі прогнози, якби зважувати середню згідно з якоюсь мірою корисності моделі.

  • Якою була б обробка дисперсії при поєднанні моделей?

Ваші ідеї звучать чудово, але я не дуже впевнений у використанні автоматично підходящих моделей ARIMA. Можливо, для універсальних серій ... Загальноприйнята мудрість полягає в тому, що Holt-Winters досить надійно використовується автоматично, так що це може бути вашою базовою базою для порівняння між вибірковими методами.
Scortchi

@Scortchi Я забув згадати, що всі серії є універсальними! ;) Я погоджуюся з тим, що Holt-Winters виконує дійсно добре при автоматичному використанні, але я маю намір отримати ще одну думку від іншої моделі, щоб уникнути випадків, коли прогнози не такі хороші. Іноді HW демонструє дивну тенденцію поведінки.
Жоан Даніель

1
Навіть у універсальному випадку я намагаюся уявити собі автоматичну процедуру - є тенденція (стохастична чи детермінована), можливі трансформації, сезонність (мультиплікативна чи добавка), про які варто подумати, і я вважаю, що для отримання моделі я використовую багато попередніх знань про те, що було б розумним для того, що конкретна серія репрезентує насправді. І все-таки доказ пудингу є в їжі - я дуже хотів сказати, щоб не забувати робити позапробні порівняння простими методами - тож удачі з цим.
Scortchi

Відповіді:


15

Поєднання прогнозів - відмінна ідея. (Я думаю, що не перебільшення можна сказати, що це одна з небагатьох речей, з якими погоджуються академічні синоптики.)

Я, здається, ще раз писав документ, розглядаючи різні способи прогнозування ваги при їх поєднанні: http://www.sciencedirect.com/science/article/pii/S0169207010001032 В основному, використання (Akaike) ваг не послідовно покращувало комбінації над простими чи підстриженими / виграшеними засобами чи медіанами, тому я особисто подумав би двічі, перш ніж впровадити складну процедуру, яка може не принести певної користі (нагадаємо, що комбінації постійно перевершували вибір окремих методів за критеріями інформації). Це, звичайно, може залежати від конкретного часового ряду.

Я розглянув поєднання інтервалів передбачення у статті вище, але не на комбінування дисперсії як такої. Здається, я згадую документ, який не так давно був у МСФО з таким фокусом, тому ви, можливо, захочете шукати "комбінування" чи "комбінацію" через випуски випуску IJF.

Кілька інших робіт, які розглядали поєднання прогнозів, є тут (з 1989 року, але огляд) і тут і тут (також дивиться на щільність) і тут і тут. Багато хто з них зазначає, що ще недостатньо зрозуміло, чому комбінації прогнозів часто перевершують окремі обрані моделі. Друга до останньої роботи - про змагання з прогнозування М3; Одним з їх головних висновків було (число (3) на стор. 458), що «точність комбінації різних методів перевершує в середньому конкретні методи, що поєднуються, і справляє себе добре в порівнянні з іншими методами». В останньому з цих робіт видно, що комбінації не обов'язково краще, ніж одиничні моделі, але вони можуть значно знизити ризик катастрофічного збою (що є однією з ваших цілей). Більше літератури слід легко знайти в Міжнародному журналі прогнозування , Журналі прогнозування а також для більш конкретних застосувань у економетриці чи літературі про ланцюги поставок.


1
Чудова точка зору щодо поєднання моделей! Ваша відповідь була дуже конструктивною!
João Daniel

@Stephan Kolassa, чи хотіли б ви зауважити комбінування прогнозів переднього та зворотнього руху, як у методі Бурга?
деніс

@denis: Я не знайомий ні з прогнозуючими, ні назад, ні з методом Бурга, вибачте ... хоча я б припустив, що поєднання прогнозів / прогнозів (також методів ансамблю) зазвичай буде корисним.
Стефан Коласа

Привіт Стефане, чудова стаття. Схоже, що сайт журналу змінився, і більше неможливо завантажити код R з головного сайту. Зараз хостинг на іншому веб-сайті?
Ян

@Ian: ви можете не мати до нього доступу, якщо ви не підписуєтеся. Надішліть мені електронний лист ( знайдіть тут мою адресу ), сценарії надсилаю. Дайте мені кілька днів, щоб викопати їх.
Стефан Коласа

1

Чому б не вказати далі? Я не думаю, що будь-яка модель, яку ви виробили, може бути кращою чи хорошою, ніж конкретний вибір.

Зважаючи на це, якщо ви можете трохи звузити свій вибір до тих, на які ви можете протестувати, а введення даних можна стандартизувати, то чому б не написати процедуру автоматизованого тестування в R?

Скажімо, ви вирішили, що ваші дані потраплять у діапазон, який оцінюватиметься п'ять моделей, а також одна «резервна копія». Скажімо, ви можете охарактеризувати дані різними тестами. Тоді просто вперед і напишіть алгоритм R (або подібну програму), який запускає це для вас. Це працює, якщо ви могли б створити блок-схему, яку модель слід запускати на основі даних тесту, тобто якщо будь-яка точка дерева рішень є двійковою.

Якщо це не варіант, оскільки рішення може бути не двійковим, я пропоную вам застосувати систему рейтингів на основі застосовних тестів та запустити через сітку деякі "сильні випадки", змодельовані даними, щоб побачити, чи є результати, які ви шукаєте.

Можна об'єднати ці речі очевидно, наприклад, тестування на нестаціонарність може бути визначено так-ні, тоді як інші атрибути можуть потрапити в діапазон, такий як мультиколінеарність.
Спочатку ви можете це намалювати на папері, потім скласти, змоделювати відомими дистрибутивами.

Потім просто запускайте програму R щоразу, коли надходять нові дані. Я не бачу необхідності поєднувати кілька моделей з обчислювальними можливостями, які ви, швидше за все, маєте під рукою.


Звуження вибору - хороша ідея, як не використання несезонних методів, якщо дані, очевидно, сезонні. Але навіть тоді я б заперечував, що усереднення декількох сезонних моделей (добавка проти мультиплікативної сезонності, з трендом або без т. Д.) В середньому підвищить точність прогнозу. Принаймні, таке враження я отримую від небагато експозиції до спільноти прогнозування, а також до M3 та подібних змагань з прогнозування.
Стефан Коласа

Чи є у вас додаткові папери з цього приводу? Я маю на увазі, що це буде прямою, але важливою темою дослідження. Дуже цікава ідея, хоча просто інтуїтивно не погоджуюся, що це обов'язково було б краще, ніж динамічна сітка моделей.
IMA

Гарна думка. Я відредагував свою відповідь, щоб включити додатковий абзац із більшою кількістю покажчиків літератури. Я погоджуюся, що це прямо та актуально, і досі недостатньо зрозуміло, чому усереднення прогнозу зазвичай підвищує точність.
Стефан Коласа

Так, я маю на увазі, що ви могли б моделювати всілякі проблеми з розподілом та атакувати його обчислювально та принципово. Дякую за папери, дуже цікаво.
IMA

0

Існують приємні та прості формули для комбінування двох методів прогнозування, ви просто зважуєте їх, помножуючи перший на a, а другий на (1 - a), де a виявляється шляхом мінімізації дисперсії цього комбінованого прогнозу. Оскільки ви знаєте помилки обох методів прогнозування, ви можете обчислити помилки комбінації, яка буде залежати від "a". Розрахунок простий, коли середнє значення кожного методу дорівнює 0. Для комбінування більш ніж двох методів формули все ще є "простими", в тому сенсі, що ви можете їх обчислити аналітично "вручну", а також використовувати варіант Solver від EXCEL


Чи можете ви навести посилання на цей метод.
horaceT
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.