Чи дійсно агрегувати часовий ряд, щоб він виглядав більш значущим?


10

Ще одне питання щодо часових рядів у мене.

У мене є набір даних, який щоденно реєструє випадки насильства в психіатричній лікарні протягом трьох років. За допомогою попереднього запитання я поспілкувався з цим і зараз трохи щасливіший.

Зараз у мене є те, що щоденні серії дуже галасливі. Він коливається дико, вгору і вниз, від 0 часом до 20. Використовуючи графіки лососу та пакет прогнозу (який я настійно рекомендую для початківців, як я), я отримую абсолютно рівну лінію з великими інтервалами довіри від прогнозу.

Однак агрегація даних щотижня або щомісяця має набагато більше сенсу. Вони змітаються з початку серії, а потім знову збільшуються в середині. Лосс-графік та пакет прогнозування створюють щось більш значуще.

Це відчуває трохи схоже на обман. Я просто віддаю перевагу зведеним версіям, тому що вони виглядають приємно, не маючи реальної дійсності до цього?

Або було б краще обчислити ковзну середню і використовувати це як основу? Я боюся, що я не розумію теорії, що стоїть за усім цим досить добре, щоб бути впевненим у тому, що є прийнятним

Відповіді:


8

Це повністю залежить від вашого часового ряду та того, який ефект ви хочете виявити / довести тощо.

Тут важливим є те, які періоди у ваших даних. Складіть спектр ваших даних і подивіться, які частоти є загальними для вас даними.

У будь-якому випадку, ви не брешите, коли вирішите відображати агреговані значення. Коли ви шукаєте ефекти, які виникають протягом тижнів (наприклад, більше насильства влітку, коли спекотна погода), це правильно зробити.

Можливо, ви також можете поглянути на трансформацію Гільберта Хуанга. Це дасть вам функції внутрішнього режиму, які дуже зручні для візуального аналізу.


12

Дуже часто при прогнозуванні агрегувати дані з метою збільшення співвідношення сигнал / шум. Наприклад, є кілька робіт про вплив часової агрегації на точність прогнозу в економіці. Те, що ви, мабуть, бачите у щоденних даних, є слабким сигналом, який переповнюється шумом, тоді як щотижневі та місячні дані показують сильніший сигнал, який є більш помітним.

Чи ви хочете використовувати тимчасову агрегацію, повністю залежить від того, яка ваша мета. Якщо вам потрібні прогнози повсякденних випадків, то агрегація не принесе великої користі. Якщо ви зацікавлені в дослідженні впливу декількох коваріатів на частоту захворюваності, і всі ваші дані доступні щодня, то я б, ймовірно, використовував щоденні дані, оскільки це дасть більший розмір вибірки і, ймовірно, дасть змогу виявити ефекти легші.

Оскільки ви використовуєте пакет прогнозів, імовірно, ви зацікавлені в прогнозуванні часових рядів. Тож вам потрібні щоденні прогнози, щотижневі прогнози або щомісячні прогнози? Відповідь визначатиме, чи агрегація вам підходить.


1

Проблема (дилема), з якою ви стикаєтеся, полягає в тому, щоб вибрати оптимальний (або інший спосіб) інтервал вибірки для перегляду ваших прогнозів. Для початку дивіться текст посилання на відому книгу Брауна, яка також буде кваліфікованою справою. Все це зводиться до "врівноваження ризику не помітити швидку зміну на тлі властивої змінності даних та вартості частого перегляду планів". Якщо ви не готові щодня переглядати свій прогноз (і рішення, що його мотивували), вам не потрібно використовувати дані (найшмішніші) щоденні дані. Важливий момент, який часто втрачається в сучасній літературі з прогнозування, полягає в тому, що прогнози необхідні лише для того, щоб допомогти у прийнятті рішення (якщо тільки ніхто також не знає, як з них отримати задоволення).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.