Найкращий метод для коротких часових рядів


35

У мене є питання, пов'язане з моделюванням коротких часових рядів. Справа не в тому, чи моделювати їх , а як. Який метод ви б рекомендували для моделювання (дуже) коротких часових рядів (скажімо, про довжину )? Під «кращим» я маю на увазі тут найбільш надійний, тобто найменш схильний до помилок через факт обмеженої кількості спостережень. При коротких серіях одиничні спостереження можуть впливати на прогноз, тому метод повинен забезпечувати обережну оцінку помилок та можливої ​​варіабельності, пов'язаної з прогнозом. Мене взагалі цікавлять універсальні часові ряди, але було б цікаво дізнатися і про інші методи.T20


Яка одиниця часу? Чи можете ви розмістити дані?
Мастеров Димитрій Вікторович

8
Які б ви не робили припущення - щодо сезонності, стаціонарності тощо. - короткий часовий ряд дасть вам можливість виявити лише найголовніші порушення; тому припущення повинні бути добре обґрунтовані в галузі знання. Вам потрібно моделювати чи просто робити прогнози? Конкуренція M3 порівнювала різні "автоматичні" методи прогнозування серій із різних областей, деякі
Скортчі - Відновити Моніку

5
+1 до коментаря @ Scortchi Між іншим, із 3 003 серії М3 (доступні в Mcompупаковці для R) 504 мають 20 або менше спостережень, зокрема 55% річних серій. Таким чином, ви можете подивитися оригінальну публікацію і побачити, що добре працює за щорічними даними. Або навіть переглядати оригінальні прогнози, подані на змагання M3, які доступні в Mcompупаковці (списку M3Forecast).
S. Kolassa - Відновіть Моніку

Привіт, я нічого не додаю у відповідь, але просто поділюсь чим-небудь питанням, яке, я сподіваюся, може допомогти іншим зрозуміти проблему тут: коли ви скажете надійний, це найменш схильний до помилок через факт обмеженості кількість спостережень . Я вважаю, що надійність є важливою концепцією статистики, і тут це вирішальне значення, оскільки, маючи так мало даних, будь-яке моделювання підходить сильно залежатиме від припущень самої моделі чи інших людей. Завдяки надійності ви робите ці обмеження менш сильними, не дозволяючи припущенню обмежувати результати. Я сподіваюся, що це допомагає.
Томмазо Герріні

2
Надійні методи @TommasoGuerrini не роблять менших припущень, вони роблять різні припущення.
Тім

Відповіді:


31

Це дуже характерно для дуже простих методів прогнозування , як «прогноз історичних середнього» випереджати складніші методи. Це ще ймовірніше для коротких часових рядів. Так, в принципі ви можете підходити до ARIMA або навіть більш складної моделі до 20 і менше спостережень, але ви, швидше за все, переобладнаєте і отримаєте дуже погані прогнози.

Отже: почніть з простого еталону, наприклад,

  • історичне значення
  • історична медіана для додаткової стійкості
  • випадкова прогулянка (прогнозування останнього спостереження поза)

Оцініть їх за позамобільними даними. Порівняйте будь-яку більш складну модель з цими орієнтирами. Ви можете бути здивовані, побачивши, як важко перевершити ці прості методи. Крім того, порівняйте надійність різних методів із цими простими, наприклад, не лише оцінюючи середню точність поза вибіркою, але й відхилення помилок , використовуючи улюблений показник помилок .

Так, як пише Роб Хайндман у своєму дописі, на який посилається Олександр , тестування поза вибіркою - це сама проблема для коротких серій - але насправді не існує хорошої альтернативи. ( Не використовуйте взірцеву підгонку, що не є посібником для точності прогнозування .) АПК не допоможе вам з медіаною та випадковою ходою. Однак ви в будь-якому випадку можете використовувати перехресну перевірку часових рядів , яка наближається до AIC.


Щойно виявив свою відповідь (+1). Я зробив ще один коментар, на випадок, якщо ви зацікавлені і хочете уточнити.
Олександр Блех

17

Я знову використовую питання як можливість дізнатися більше про часові ряди - одна з (багатьох) тем, які мене цікавлять. Після короткого дослідження мені здається, що існує декілька підходів до проблеми моделювання коротких часових рядів.

Перший підхід полягає у використанні стандартних / лінійних моделей часових рядів (AR, MA, ARMA тощо), але звертати увагу на певні параметри, як описано в цій публікації [1] Роб Хайндман, який не потребує введення в часовий ряд та світ прогнозування. Другий підхід, на який посилається більшість супутньої літератури, яку я бачив, пропонує використовувати нелінійні моделі часових рядів , зокрема, порогові моделі [2], які включають порогову авторегресивну модель (ТАР) , що самовибуває ТАР ( SETAR) , порогова авторегресивна модель ковзної середньої величини (TARMA) та модель TARMAX , яка розширює TARмодель до екзогенних часових рядів. Відмінні огляди нелінійних моделей часових рядів, включаючи порогові моделі, можна знайти в цій роботі [3] та в цій статті [4].

Нарешті, ще одна дослідницька робота, що стосується ІМХО [5], описує цікавий підхід, який базується на представленні нелінійних систем Вольтерра-Вайнера - див. Це [6] та це [7]. Вважається, що такий підхід є кращим за інші методи в контексті коротких і галасливих часових рядів .

Список літератури

  1. Хайндман, Р. (4 березня 2014 р.). Пристосування моделей до коротких часових рядів. [Запис у блозі]. Отримано з http://robjhyndman.com/hyndsight/short-time-series
  2. Пенсильванський державний університет. (2015). Порогові моделі. [Матеріали онлайн-курсу]. STAT 510, Прикладний аналіз часових рядів. Отримано з https://onlinecourses.science.psu.edu/stat510/node/82
  3. Живот, Е. (2006). Нелінійні моделі часових рядів. [Примітки до класу]. ECON 584, Економетрія часових рядів. Університет Вашингтона. Отримано з http://facturing.washington.edu/ezivot/econ584/notes/nonlinear.pdf
  4. Chen, CWS, So, MKP, & Liu, F.-C. (2011 р.). Огляд моделей порогових часових рядів у фінансах. Статистика та її інтерфейс, 4 , 167–181. Отримано з http://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdf
  5. Барахона, М., & Poon, C.-S. (1996). Виявлення нелінійної динаміки коротких, галасливих часових рядів. Природа, 381 , 215-217. Отримано з http://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDF
  6. Франц, МО (2011). Серії Вольтерра та Вінер. Академія, 6 (10): 11307. Отримано з http://www.scholarpedia.org/article/Volterra_and_Wiener_series
  7. Франц, Міссурі, Шолкопф, Б. (другий). Уніфікуючий погляд на теорію Вінера та Вольтера та регресію ядра полінома. Отримано з http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdf

4
+1 Чи не проти виписувати посилання на ці документи у своїй відповіді? Нещодавно ми з’ясували, що багато посилань на документи гниють через деякий час, з часом роблячи їх майже марними, якщо в тексті також не згадуються автори паперу, заголовки тощо.
whuber

2
@whuber: Дякую Ніяких проблем взагалі немає, я оновлю свою відповідь посиланнями сьогодні ввечері.
Олександр Блех

2
+1 за посилання на пост Роб Хайндман. (Однак я спокушаюсь на -1 для складних моделей. Мені б вкрай обережно застосовувати порогові або будь-які інші нелінійні методи часових рядів на часових рядах менше 20 спостережень. Ви майже впевнені в надмірності, що йде прямо на противагу до вимоги ОП про надійний метод.)
С. Коласа - Відновлення Моніки

3
[2,3,4] не згадуйте короткі часові ряди, а дивіться на сюжети в [2]:> 120 спостережень. [4] зосереджується на фінансах, де у вас надзвичайно більше 20 спостережень. [5] пише про "короткі часові ряди, як правило, довгі 1000 очок" (стор. 216). Я не бачу можливості надійно і надійно вписати TAR або подібну модель, або будь-яку з більш складних, з якими ви посилаєтесь, з <20 спостереженнями. (BTW: Я також роблю деяку інфекційну статистику збоку, і, маючи менше 20 спостережень, ви дійсно не можете оцінити більше, ніж середнє значення та ще один параметр.)
С. Коласа - Відновлення Моніки

5
Вас вітає ;-) Я думаю, що "короткий" дуже залежить від контексту: для серій читання датчиків або фінансів 1000 точок даних є "короткими" - але в управлінні ланцюгом поставок 20 щомісячних спостережень майже нормально , а "короткий" розпочнеться лише через 12 або менше спостережень.
S. Kolassa - Відновіть Моніку

11

Т20

Наступні якісні методи добре працюють на практиці для дуже коротких або відсутніх даних:

  • Складені прогнози
  • Опитування
  • Метод Дельфі
  • Будівництво сценарію
  • Прогноз за аналогією
  • Виконавча думка

Один з найкращих методів, який мені відомо, що працює дуже добре, - це використання структурованих аналогій (5-е у списку вище), де ви шукаєте подібні / аналогічні продукти в тій категорії, яку ви намагаєтеся прогнозувати, і використовуєте їх для прогнозування короткострокового прогнозування . Дивіться приклади в цій статті , і документ SAS про те, як це зробити, використовуючи звичайно SAS. Одне обмеження полягає в тому, що прогноз за аналогіями буде працювати лише у вас, є хороші аналогії, інакше ви можете покластися на судження про прогнозування. Ось ще одне відео з програмного забезпечення прогнозу про те, як використовувати такий інструмент, як прогноз, для прогнозування за аналогією. Вибір аналогії - це більше мистецтво, ніж наука, і вам потрібна доменна експертиза, щоб вибрати аналогічні продукти / ситуації.

Два відмінні ресурси для короткого або нового прогнозування продукту:

  • Принцип прогнозування Армстронга
  • Прогнозування нового продукту від Кан

Далі для ілюстративних цілей. Я щойно закінчив читання сигналу та шумуНейт Сілвер, в тому, що є хороший приклад американського та японського (аналог ринку США) міхура та прогнозування ринку житла. На графіку нижче, якщо ви зупиняєтесь на 10 точках даних та використовуєте один із методів екстраполяції (експонентне згладжування / ets / arima ...) і подивіться, куди це вас заводить і де фактично закінчилося. Знову я представив приклад набагато складніше, ніж проста екстраполяція тренду. Це лише для того, щоб висвітлити ризики екстраполяції тренду з використанням обмежених точок даних. Крім того, якщо ваш продукт має сезонний малюнок, для прогнозування вам потрібно використовувати певну форму аналогічної ситуації. Я читав статтю, на яку я думаю, що в журналі Journal of Business досліджується, що якщо у вас 13 тижнів продажу продукції фармацевтичних препаратів, ви можете прогнозувати дані з більшою точністю, використовуючи аналогічні продукти.

введіть тут опис зображення


Дякуємо, що вказали на інший підхід! І я згоден, книга Нейт Сілверса - це чудова.
Тім

5

Припущення, що кількість спостережень є критичним, виходило з неофіційного коментаря GEP Box щодо мінімального розміру вибірки для ідентифікації моделі. Що стосується мене, то більш нюансованою відповіддю є те, що проблема / якість ідентифікації моделі базується не лише на розмірі вибірки, а на співвідношенні сигнал / шум, що знаходиться в даних. Якщо у вас сильне співвідношення сигнал / шум, вам потрібно менше спостережень. Якщо у вас низький s / n, то для ідентифікації вам потрібно більше зразків. Якщо ваш набір даних щомісяця та має 20 значень, неможливо емпірично визначити сезонну модель ЗАРАЗ, якщо ви вважаєте, що дані можуть бути сезонними, тоді ви можете запустити процес моделювання, вказавши ar (12), а потім зробити діагностику моделі ( тести значущості) або зменшити або доповнити вашу структурно дефіцитну модель


5

Маючи дуже обмежені дані, я б більше схильний відповідати даним за допомогою байєсівських методів.

Стаціонарність може бути дещо хитрою, якщо мати справу з байесівськими моделями часових рядів. Один з варіантів полягає в застосуванні обмежень щодо параметрів. Або ви не могли. Це добре, якщо ви просто хочете подивитися на розподіл параметрів. Однак якщо ви хочете генерувати задній прогноз, то у вас може бути багато прогнозів, які вибухають.

Документація Стен надає кілька прикладів, коли вони ставлять обмеження на параметри моделей часових рядів для забезпечення стаціонарності. Це можливо для порівняно простих моделей, які вони використовують, але це може бути майже неможливим у складніших моделях часових рядів. Якщо ви дійсно хотіли б застосувати стаціонарність, можете скористатися алгоритмом Metropolis-Hastings і викинути будь-які невідповідні коефіцієнти. Однак для цього потрібно обчислити багато власних значень, що сповільнить справи.


0

Проблема, як ви мудро зазначали, - це «надмірне оснащення», викликане фіксованими списком процедурами. Розумний спосіб - спробувати зберегти рівняння простим, коли у вас є незначний обсяг даних. Після багатьох лун я виявив, що якщо просто використовувати модель AR (1) і залишити швидкість адаптації (коефіцієнт ar) до даних, то речі можуть спрацювати досить добре. Наприклад, якщо розрахунковий коефіцієнт ar близький до нуля, це означає, що загальне середнє значення було б відповідним. якщо коефіцієнт близький до +1,0, то це означає, що останнє значення (скориговане на константу є більш доцільним. Якщо коефіцієнт близький до -1,0, то мінус останнього значення (скоригований на константу) буде найкращим прогнозом. Якщо коефіцієнт інший, це означає, що середнє зважене нещодавнє минуле є відповідним.

Це саме те, з чого починається AUTOBOX, а потім відкидає аномалії, оскільки воно точно налаштовує оцінений параметр, коли виникає "невелика кількість спостережень".

Це приклад "мистецтва прогнозування", коли чистий підхід, керований даними, може бути непридатним.

Далі наводиться автоматична модель, розроблена для 12 точок даних, не турбуючись про аномалії. введіть тут опис зображенняз фактичним / підходящим та прогнозним тут введіть тут опис зображеннята залишковою сюжетом тутвведіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.