Моделювання нерівномірно розташованих часових рядів


12

Я маю суцільну змінну, відібрану вибірку протягом року з нерегулярними інтервалами. Деякі дні мають більше одного спостереження на годину, а інші періоди нічого не мають. Це ускладнює виявлення закономірностей у часових рядах, оскільки деякі місяці (наприклад, жовтень) є дуже вибірковою, а інші - ні.

введіть тут опис зображення

Моє питання - який найкращий підхід до моделювання цього часового ряду?

  • Я вважаю, що більшість методів аналізу часових рядів (як ARMA) потребують фіксованої частоти. Я міг би агрегувати дані, щоб мати постійну вибірку або вибрати підмножину даних, яка дуже детальна. В обох варіантах я б бракував деякої інформації з оригінального набору даних, яка могла б розкрити окремі шаблони.
  • Замість того, щоб розкласти серію за циклами, я міг би подати модель цілим набором даних і очікувати, що вона підбере шаблони. Наприклад, я перетворив годину, будній день та місяць у категоричні змінні та спробував багаторазову регресію з хорошими результатами (R2 = 0,71)

Я маю ідею, що методи машинного навчання, такі як ANN, також можуть вибирати ці зразки з нерівномірних часових рядів, але мені було цікаво, чи хтось це намагався, і міг би дати мені поради щодо найкращого способу представлення часових моделей у нейронній мережі.

Відповіді:


4

ARIMA, Exponential Smoothing та інші дійсно потребують рівномірно розподілених точок вибірки. Коли ви пишете, ви можете скуповувати свої дані (скажімо на дні), але, як ви також пишете, ви втрачаєте інформацію. Крім того, у вас можуть з’явитися пропущені значення, тому вам доведеться ввести імпульси, оскільки ARIMA не дуже добре поводиться з відсутніми значеннями.

Як ви знову пишете, одна з альтернатив - це підведення манекенів часу в рамки регресії. Мені особисто не дуже подобаються категоричні манекени, тому що це передбачає різке скорочення між сусідніми категоріями. Зазвичай це не дуже природно. Тому я б швидше дивився на періодичні сплайси з різною періодичністю. Цей підхід має перевагу в роботі з вашим нерівномірним відбором, а також із відсутніми значеннями.

Будьте дуже обережні щодо тлумачення . Вміреність у вибірці, як відомо, вводить в оману як міру точності прогнозування поза вибіркою ( див. Тут ). Я можу стверджувати, що цей розрив між точкою прогнозування в вибірці та точністю вибірки також означає, що немає зв'язку між придатністю для вибірки та наскільки добре модель "зрозуміла" дані, навіть якщо ваш інтерес полягає не в прогнозуванні , але лише у моделюванні як такому. Моя філософія полягає в тому, що якщо ви не можете добре прогнозувати часовий ряд, ви не зрозуміли його в жодному змістовному сенсі.R2

Нарешті, не перестарайтеся з моделюванням. Тільки з окулярів ваших даних, очевидно, що щось сталося у червні, одного дня серпня та вересня / жовтня. Я пропоную вам спершу дізнатися, що це щось було, і включити це у свою модель, наприклад, як пояснювальні змінні (які ви можете включити до ARIMAX, якщо хочете). Що там сталося, очевидно, не сезонність.


0

Оскільки ваше запитання та приємна відповідь від @Stephan Kolassa обговорюють ARIMA та нейронні мережі, зокрема, я хотів би зазначити, що ви можете дати forecastпакет в Rходу - він має nnetarфункцію, яка тренує просту нейронну мережу подачі вперед із 1 прихованим шаром і відсталі входи.

Можливо, ви могли б спробувати щось у напрямку:

  • витягніть багато функцій для кожного зі своїх спостережень, наприклад, день тижня, день місяця, день тижня / вихідні тощо. (у вашому запитанні згадується лише дата, тому я включив це - але ви можете включити всі можливі речі, які ви вважаєте, це може вплинути на вашу змінну інтересів).
  • Значення вашої змінної, що цікавиться, а також інформація про дату (наприклад, день тижня тощо) буде вашим вкладом. Ви можете включити змінні дати, наприклад, зовнішні регресори ( xreg).

і прогнозуйте майбутні значення вашої цікавої вар на основі цих даних. Крім того, ви також можете подумати про включення спостережуваної середньої величини та дисперсії / відхилення на кожен день значення, яке ви хочете передбачити. Це означає, що вам слід спочатку прогнозувати очікуване середнє значення та відхилення, наприклад, ARIMA, а потім додати це як додатковий внесок до згаданого вище підходу.

чт.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.