Як виправити колишніх виявлених людей для прогнозування даних часових рядів?


10

Я намагаюся знайти спосіб виправлення інших людей, коли я знаходжу / виявляю їх у даних часових рядів. Деякі методи, такі як nnetar в R, дають деякі помилки для часових рядів з великими / великими залишками. Мені вже вдалося виправити пропущені значення, але люди, які переживають, все ще шкодять моїм прогнозам ...


що ви маєте на увазі під «виправленням»?
rbatt

Підміна або заміна ... Або це просто віднімання ...?
Міла

3
Чи справді вищі люди "справжні"? Під цим я маю на увазі, чи є люди, що випадають, викликані нездатністю моделі передбачити екстремальні події чи потрясіння? Або це "помилки", такі як проблеми з введенням даних?
ймовірністьлогічний

Відповіді:


9

Зараз у пакеті прогнозування для R існує встановлення засобів для визначення та заміни інших людей. (Він також обробляє пропущені значення.) Оскільки ви, мабуть, уже використовуєте пакет прогнозів, це може бути зручним рішенням для вас. Наприклад:

fit <- nnetar(tsclean(x))

Ця tsclean()функція буде відповідати стійкому тренду, використовуючи льос (для несезонних серій) або стійкий тренд та сезонні компоненти з використанням STL (для сезонних серій). Залишки обчислюються та обчислюються наступні межі:

q0,1

U=q0.9+2(q0.9q0.1)L=q0.12(q0.9q0.1)
де і - 10-й і 90-й відсотки залишків відповідно.q0.1q0.9

Випадають визначаються як точки з залишками більшими , ніж або менше , ніж .LUL

Для несезонних часових рядів люди, що перебувають у сезоні, замінюються лінійною інтерполяцією. Для сезонних часових рядів сезонний компонент з пристосування STL видаляється, а сезонна коригувана серія лінійно інтерполюється для заміни інвалідів перед повторною сезонністю результату.


1
Тут також корисна ваша розробка: stats.stackexchange.com/questions/1142/… (tsclean call tsoutliers)

4

Коли ви визначаєте модель ARIMA, вам слід одночасно ідентифікувати імпульси / зсуви рівня / сезонні імпульси та / або місцеві тенденції часу. Ви можете ознайомитись з матеріалами про процедури виявлення втручання на веб- сайті http://www.ebay.com/ctg/Time-Series-Analysis-Univariate-and-Multivariate-Methods-David-P-Reilly-and-William-Wei-1999 - / 85697 та http://www.unc.edu/~jbhill/tsay.pdf . Можливо, вам доведеться переслідувати комерційне програмне забезпечення, наприклад SAS / SPSS / AUTOBOX, щоб отримати будь-які корисні результати, як бажає вільне програмне забезпечення, яке я бачив. Попутно я зробив внесок у AUTOBOX значні технічні вдосконалення в цій галузі.

Редагувати:

Ще кращим підходом є виявлення людей, що вижили, за допомогою жорсткого методу ARIMA плюс процедур виявлення втручання, що призводить до надійних параметрів ARIMA та хорошого прогнозу. Тепер розглянемо розробку модельованих прогнозів, що включають повторно відібрані залишки без імпульсних ефектів. Таким чином ви отримуєте найкращі з обох світів, а саме хорошу модель та більш реалістичні твердження невизначеності для прогнозів, які не припускають, що розрахункові параметри моделі є сукупністю населення.


1

Я згоден з @Aksakal. Замість того, щоб вилучати людей, що пережили люди, кращим підходом було б використовувати якусь статистичну процедуру для боротьби з людьми, що втратили життя. Я пропоную вам перемогти свої дані. Якщо правильно впроваджуватись, виграшоризація може бути відносно надійною для людей, що вижили. На цій сторінці: http://www.r-bloggers.com/winsorization/ , ви знайдете R-коди для здійснення winorisation. Якщо ви вирішили перемогти свої дані, вам потрібно буде добре подумати про хвости розповсюдження. Очікується, що серед людей, що випадають, надзвичайно низькі, або вони будуть надзвичайно високими, або, можливо, і те й інше. Це вплине на те, чи виграєте ви, наприклад, на рівні 5% або 10% та / або рівні 95% або 99%.


1
Для оцінювання загальної середньої вартості може бути певна сенсація, якщо відсутність будь-яких тенденцій чи сезонних компонентів у даних, але в іншому випадку загрожує знищенням важливої ​​інформації.
whuber

0

У контексті прогнозування видалення інших людей є дуже небезпечним. Наприклад, ви прогнозуєте продажі продуктового магазину. Скажімо, у сусідній будівлі стався вибух газу, через який ви закрили магазин на кілька днів. Це був єдиний раз, коли магазин був закритий за 10 років. Отже, ви отримуєте часовий ряд, виявляєте сторонні, видаляєте його та прогнозуєте. Ви мовчки припускали, що нічого подібного в майбутньому не відбудеться. У практичному сенсі ви стиснули спостережувану дисперсію, і відхилення коефіцієнта скоротилися. Отже, якщо ви покажете смуги довіри для свого прогнозу, вони будуть вужчими, ніж вони були б, якби ви не зняли сторонні.

Звичайно, ви могли б утримати сторонність і продовжувати, як завжди, але і це не дуже вдалий підхід. Причина полягає в тому, що цей амортизатор перекривить коефіцієнти.

Я думаю, що в цьому випадку кращим підходом є розподіл помилок з жировими хвостами, можливо, стабільний розподіл. У цьому випадку ваш американець не буде надто перекосити коефіцієнти. Вони будуть близькі до коефіцієнтів, коли вилучена зовнішня частина. Однак зовнішній вигляд з’явиться в розподілі помилок, відхиленні від помилок. По суті, ви отримаєте більш широкі діапазони довіри прогнозу.

Діапазони довіри передають дуже важливу інформацію. Якщо ви прогнозуєте, що продажі в цьому місяці становитимуть 1 000 000 доларів , але існує 5% шансів, що вони становлять 10 000 доларів, це вплине на ваші рішення щодо витрат, управління готівкою тощо.


-1

Виконання прогнозування з використанням (або ні) моделі з вилученими випадаючими людьми залежить від ймовірності виникнення екслідерів у майбутньому та очікуваного розподілу його ефекту, якщо воно дійсно має місце. Чи достатні дані тренінгу для висвітлення цього? Байєсівський підхід повинен допомогти ...


1
Це неправильно. ваш прогноз може бути неточним, якщо ви не налаштовуєте на людей, що випадають, особливо якщо ваші випускники в кінці серії.
синоптик
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.