Обчислення похибки прогнозу за допомогою перехресної перевірки часових рядів


13

У мене є модель прогнозування для часового ряду, і я хочу обчислити її помилку передбачення поза вибіркою. На даний момент стратегія, яку я дотримуюсь, - це та, запропонована в блозі Роб Хайндмана (внизу сторінки), яка йде так (припускаючи часовий ряд та навчальний набір розміром k )y1,,ynk

  1. Встановіть модель на даних і нехай у т + до бути прогноз для наступного спостереження.yt,,yt+k1y^t+k
  2. Підрахувати помилка прогнозу як .et=y^t+kyt+k
  3. Повторіть для t=1,,nk
  4. Обчисліть середню квадратичну помилку як MSE=1nkt=1nket2

Моє запитання - скільки я маю турбуватися про кореляції через мінливі навчальні набори. Зокрема, кажуть , що я хочу , щоб прогнозувати не тільки в такому значенні, але наступні значення, так що у мене є прогнозів у т + K , ... , у т + до + т - 1 і помилки е т , 1 , ... , e t , m , і я хочу побудувати термінову структуру помилок прогнозування.my^t+k,,y^t+k+m1et,1,,et,m

Чи можу я все-таки прокручувати вікно тренінгу, що рухається вперед на 1, або я повинен перекидати його на ? Як змінюються відповіді на ці питання, якщо є значна автокореляція в серії, яку я прогнозую (можливо, це процес довгої пам’яті, тобто функція автокореляції розпадається як закон потужності, а не експоненціально.)m

Я вдячний або поясненням тут, або посиланням на те, де я можу знайти теоретичні результати щодо довірчих інтервалів навколо MSE (або інших заходів помилок).

Відповіді:


11

Здається, що вам може бути цікавіше оцінювати помилки за допомогою програми завантаження максимальної ентропії , а не перехресної перевірки. Це дозволить вам генерувати кілька завантажувальних даних із ваших даних, які потім можна розділити на стільки поїздів / тестових наборів, скільки вам подобається, щоб обчислити довірчі інтервали для своїх прогнозів.

У своєму блозі Роб Хайндман дещо обговорює перехресну перевірку часових рядів , де він реалізує декілька різних методів "прокатки" та прогнозування, але в основному він орієнтований на впровадження. У мене є ще кілька реалізацій на моєму блозі . Можливо, найпростішим підходом було б середнє значення вашої помилки за всі вікна часу, а отже ігнорування та можливі кореляції помилок.

Наскільки я можу сказати, теоретичний стан перехресної перевірки даних часових рядів дещо відстає від теоретичного стану загальної перехресної валідації. Інтуїтивно я очікую, що помилка зростатиме в міру збільшення горизонту, що говорить про те, що слід очікувати корельованих помилок у різних горизонтах прогнозу. Чому це вас хвилює?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.