У чому сенс аналізу часових рядів?


29

Який сенс аналізу часових рядів?

Існує багато інших статистичних методів, таких як регресія та машинне навчання, які мають очевидні випадки використання: регресія може надати інформацію про взаємозв'язок між двома змінними, тоді як машинне навчання чудово підходить для прогнозування.

Але тим часом я не бачу, для чого хороший аналіз часових рядів. Звичайно, я можу підходити до моделі ARIMA і використовувати її для прогнозування, але що добре, що коли довірчі інтервали для цього прогнозування будуть величезними? Існує причина, що ніхто не може передбачити фондовий ринок, незважаючи на те, що він є найбільш керованою даними галуззю у світовій історії.

Так само, як я використовую це для подальшого розуміння свого процесу? Звичайно, я можу побудувати ACF і піти "ага! Там є якась залежність!", Але що тоді? У чому справа? Звичайно, існує залежність, тому для початку ви робите аналіз часових рядів. Ви вже знали, що існує залежність . Але для чого це ти будеш використовувати?


13
Є й інші випадки використання, окрім фінансів та економіки, коли вони добре працюють.
user2974951

29
Ви також не можете передбачити фондовий ринок, використовуючи інші статистичні та методи машинного навчання, чи це також робить їх марними ..?
Тім

16
Вам здається, що АРІМА не є формою регресу. Це є.
Firebug

10
Я думаю, що це хороше питання, навіть якщо відповідь експертам здається очевидною.
gung - Відновити Моніку

6
Я прошу відрізнятись від @gung та інших, тому що найменша кількість дослідницьких зусиль відповіла б на це.
whuber

Відповіді:


54

Одним з основних напрямків використання є . Я годую свою сім'ю вже більше десяти років, прогнозуючи, скільки одиниць певного товару супермаркет продасть завтра, щоб він міг замовити достатню кількість запасів, але не надто багато. У цьому є гроші.

Інші випадки використання прогнозування наведені у таких публікаціях, як Міжнародний журнал прогнозування чи передбачення . (Повне розкриття: я асоційований редактор передбачення .)

Так, іноді величезний. (Я припускаю, що ви маєте на увазі PI, а не s. Існує різниця. ) Це просто означає, що процес важко передбачити. Тоді потрібно пом'якшити. При прогнозуванні продажів супермаркетів це означає, що потрібно багато запасів. Прогнозуючи підвищення рівня моря, це означає, що потрібно створити більш високі надбавки. Я б сказав, що великий інтервал передбачення дає корисну інформацію.

І для всіх випадків використання прогнозування корисний аналіз , хоча тема прогнозування є більшою темою. Ви можете часто покращувати прогнози, беручи до уваги залежності у своєму часовому ряду, тому вам потрібно зрозуміти їх за допомогою аналізу, який є більш конкретним, ніж просто знати залежності.

Плюс, людей цікавлять часові ряди, навіть якщо вони не прогнозують. Економетрики люблять виявляти точки зміни в макроекономічних часових рядах. Або оцінити вплив втручання, такого як зміна податкового законодавства, на ВВП чи щось інше. Можливо, ви захочете проглядати улюблений журнал економетрики, щоб отримати більше натхнення.


14
+1. Це корисно і в інших місцях. Виконання аналізу часових рядів неодмінно сповістить вас про події (про яких ви не знали), які впливають на результат, який вас цікавить. Я та всі мої колеги були абсолютно приголомшені, коли вранці у вівторок ми в основному були гіршими щодо хімічних аналізів продуктів. Ми відстежили це до грамотного плану очищення, який мав деякі недоліки. Ми заощадили за рік майже мільйон і покращили ppk продукту з 1,7 до 1,9. Урок: завжди робіть аналіз рудиментарних часових рядів на будь-яку проблему, обрамлену варіацією.
Стіан Іттервік

+1. @Stephan Kolassa, ваша відповідь підкреслює, як використовуються прогнози в реальному світі, що є моєю інтерпретацією питання ОП. Точка інтервалу прогнозування та (половина) довжини - це саме та інформація, яка вам важлива для планування стратегій пом'якшення. Якщо ви будуєте дамбу, щоб запобігти затопленню Манхеттена, а ваш новий метод часових рядів досить скоротить інтервал передбачення, ви можете зменшити витрати на будівництво дамби, використовуючи лише необхідні ресурси. Mutatis mutandis застосовується для вашого продуктового прикладу.
Лукас Робертс

13

Цілі в аналізі ТС з слайдів уроків М. Деттлінга:

1) Дослідницький аналіз: Візуалізація властивостей ряду

  • Сюжет часового ряду
  • розкладання на тенденцію / сезонний зразок / випадкова помилка
  • корелограма для розуміння структури залежності

2) Моделювання: пристосування стохастичної моделі до даних, що представляють і відображають найважливіші властивості серії

  • зроблено дослідницьке або з попередніми знаннями
  • вибір моделі та оцінка параметрів є вирішальним
  • умовивід: наскільки добре модель відповідає даним?

3) Прогнозування: прогнозування майбутніх спостережень з мірою невизначеності

  • здебільшого на основі моделі, використовує дані про залежність та минулі часи
  • є екстраполяцією, тому часто приймають із зерном солі
  • аналогічно керуванню автомобілем, дивлячись у дзеркало заднього скла

4) Керування процесом: Вихід (фізичного) процесу визначає часовий ряд

  • на спостережувані дані встановлюється стохастична модель
  • це дозволяє зрозуміти і сигнал, і шум
  • можливо здійснити моніторинг нормальних / аномальних коливань

5) Регресія часових рядів: Моделювання часових рядів відповідей за допомогою 1 або більше вхідних рядів Підгонка цієї моделі за припущенням про помилку iid:

  • призводить до неупереджених оцінок, але ...
  • часто грубо неправильні стандартні помилки
  • таким чином, довірчі інтервали та тести вводять в оману

Про проблему з акціями:

  • Ці ТС дуже мінливі, що складно моделювати.
  • Наприклад, зміна закону, що стосується компанії, може призвести до зміни процесу ТС ... як би будь-який статистичний інструмент передбачив це?

Про послідовну кореляцію:

  • На відміну від багатоваріантної статистики, дані у часових рядах зазвичай не є iid, але є послідовно співвіднесеними.
  • Ця інформація також може бути корисною для виявлення того, що не може бути, наприклад, брудним лабораторним інструментом

1
Я б додав класифікацію, наприклад, є численні додатки, які розпізнають вашу діяльність на основі аналізу даних акселерометра вашого телефону.
SaiBot

Це цікаво! Як це зробити?
Ніколь Орігамі Фокс

1
Я думаю, що існує багато різних способів. Один із способів - дозволити користувачам генерувати дані про навчання, маркуючи свою діяльність. Після того, як ви зможете скоротити часові виписки (інтервали) (наприклад, 3 секунди) та навчити модель машинного навчання. Після цього ви зможете класифікувати незазначені види діяльності.
SaiBot

Дякую, Сайбот. Я бачу, мені доводиться частіше розглядати комбінацію різних інструментів :)
Ніколь Орігамі Фокс

11

Найпростіший спосіб відповісти на ваше запитання - зрозуміти, що грубо набори даних класифікуються як поперечний переріз , часовий ряд та панель . Регресія поперечного перерізу - це інструмент переходу для наборів даних поперечного перерізу. Саме це знає більшість людей і посилається на термін регресія . Регресія часових рядів іноді застосовується до часових рядів, але аналіз часових рядів має широкий спектр інструментів поза регресією.

Прикладом даних поперечного перерізу є , де - ваги та висоти випадково вибраних учнів у школі. Якщо вибірка є випадковою, ми часто можемо запустити лінійну регресію і отримати надійні результати, щоб, можливо, передбачити висоту учня в цій школі, знаючи лише вагу учня .(x1,y1),(x2,y3),,(xn,yn)xi,yiyxy^x

введіть тут опис зображення

Якщо вибірка не була випадковою, то регресія може взагалі не працювати. Наприклад, ви вибрали лише дівчаток у першому класі, щоб оцінити модель, але вам слід передбачити зріст чоловіка 12-го класу. Отже, регресія має свої проблеми навіть у налаштуваннях поперечного перерізу.

Тепер подивіться на тимчасові ряди даних, це може бути , такі як , де місяць року, а є ще вага та зріст, але конкретного учня в цій школі.xt,yt(x1,y1),(x2,y3),,(xn,yn)tx,y

введіть тут опис зображення

Як правило, регресія взагалі не повинна працювати. Однією з причин є те, що індекси упорядковані. Отже, ваш зразок не є випадковим, і я раніше згадував, що регресія вважає за краще, щоб випадковий зразок працював належним чином. Це серйозне питання. Дані часових рядів, як правило, зберігаються, наприклад, ваш зріст у цьому місяці сильно співвідноситься з вашим ростом наступного місяця. Для вирішення цих питань був розроблений аналіз часових рядів, він також включав техніку регресії, але її потрібно використовувати певними способами.t

Третій загальний тип набору даних - це панель, зокрема, одна із поздовжніх даних. Тут ви можете отримати кілька знімків змін ваги та висоти для кількох учнів. Цей набір даних може виглядати як хвилі перерізів або набір часових рядів.

введіть тут опис зображення

Природно, це може бути складніше, ніж попередні два типи. Тут ми використовуємо регресію панелей та інші спеціальні методи, розроблені для панелей.

Підводячи підсумок, причина, чому регресія часових рядів розглядається як виразний інструмент порівняно з регресією поперечного перерізу, полягає в тому, що часові ряди представляють унікальні проблеми, коли мова йде про припущення незалежності регресійної техніки. Зокрема, у зв'язку з тим, що на відміну від аналізу поперечного перерізу, порядок спостережень має значення, зазвичай це призводить до різного роду структур кореляції та залежності, що іноді може призвести до недійсності застосування методів регресії. Ви повинні мати справу з залежністю, і саме в цьому добре аналізується часовий ряд.

Прогнозованість цін на активи

Крім того, ви повторюєте загальну помилку щодо фондових ринків та цін на активи загалом, що їх неможливо передбачити. Це твердження занадто загальне, щоб бути правдивим. Це правда, що ви не можете прямо передбачити наступний галочку AAPL. Однак це дуже вузька проблема. Якщо ви розгорнете свою мережу ширше, ви відкриєте для себе багато можливостей заробляти гроші, використовуючи всі види прогнозування (зокрема, аналіз часових рядів). Статистичний арбітраж є одним із таких напрямків.

Тепер причина, чому ціни на активи важко передбачити в найближчій перспективі, пов'язана з тим, що велика складова зміни цін - це нова інформація. По-справжньому нову інформацію, яку неможливо реально розробити з минулого, за визначенням неможливо передбачити. Однак це ідеалізована модель, і багато людей стверджують, що існують аномалії, які дозволяють зберегти державу. Це означає, що частина зміни цін може бути пояснена минулим. У таких випадках аналіз часових рядів є цілком підходящим, оскільки він точно стосується наполегливості. Це відокремлює нове від старого, нове неможливо передбачити, але старе перетягується з минулого в майбутнє. Якщо ви можете трохи пояснити, то у фінансах це означає, що ви можетевміти заробляти гроші. Поки ціна стратегії, побудованої на такому прогнозуванні, покриває дохід, отриманий нею.

Нарешті, погляньте на нобелівську премію з економіки в 2013 році : "цілком можливо передбачити широкий курс цих цін протягом більш тривалих періодів, таких як наступні три-п'ять років". Погляньте на нобелівську лекцію Шиллера , він обговорює передбачуваність цін на активи.


6

Аналіз часових рядів також може сприяти ефективному виявленню аномалії або зовнішньої інформації у часових даних.

Як приклад, можна встановити модель ARIMA і розрахувати інтервал прогнозу. Залежно від випадку використання інтервал можна використовувати для встановлення порогу, в межах якого можна сказати, що процес контролюється; якщо нові дані виходять за межу, вона позначається для подальшої уваги.

У цій публікації в блозі є короткий і широкий огляд аналізу часових рядів для виявлення зовнішньої форми. Для більш поглибленого лікування дослідники ebay пояснюють, як вони проводили виявлення аномалії в масштабі на основі статистичного аналізу даних часових рядів.


6

Існує багато інших статистичних методів, таких як регресія та машинне навчання, які мають очевидні випадки використання: регресія може надати інформацію про взаємозв'язок між двома змінними, тоді як машинне навчання чудово підходить для прогнозування.

Ви відповідаєте на власне запитання нижче: автокореляція. Часові ряди зазвичай є такими, що порушує припущення про базову регресію OLS. Методика часових рядів має відповідні припущення для часових рядів.

Методи машинного навчання, що займаються послідовними даними, є спеціалізованими, як-от періодичні нейронні мережі (RNN) або 1-D згорткові нейронні мережі (CNN), тому ви все ще маєте спеціалізовані методи для часових рядів.

Але тим часом я не бачу, для чого хороший аналіз часових рядів. Звичайно, я можу підходити до моделі ARIMA і використовувати її для прогнозування, але що добре, що коли довірчі інтервали для цього прогнозування будуть величезними? Існує причина, що ніхто не може передбачити фондовий ринок, незважаючи на те, що він є найбільш керованою даними галуззю у світовій історії.

Інтервали довіри (CI), що виникають в результаті методики часових рядів, ймовірно, будуть більшими, ніж інтергреси, що не виникають у часі. Ця функція відома як точна. Взагалі, коли ви використовуєте регресію без часових рядів, ваш ІС буде меншим, але це неправильно, оскільки ви порушили його припущення. Якщо все, що ви хочете зробити, це представити графік з невеликими CI, складіть їх або пропустіть цілком, але якщо ви хочете, щоб відповідні CI використовували відповідні методи.

Фондовий ринок важко передбачити через його природу. Інші часові ряди набагато передбачуваніші. Спробуйте використовувати свою машинну техніку вибору на фондовому ринку, і я сумніваюся, ви матимете більше успіху.

Так само, як я використовую це для подальшого розуміння свого процесу? Зрозуміло, я можу побудувати ACF і піти "ага! Там є якась залежність!", Але що тоді? У чому справа? Звичайно, існує залежність, тому для початку ви робите аналіз часових рядів. Ви вже знали, що існує залежність. Але для чого це ти будеш використовувати?

Передбачити. Щоб побачити сезонність. Мати уявлення про мінливість даних за різними сезонами. Не кажучи вже про те, що існують більш потужні методи часового ряду, ніж старі школи ARIMA, як методи State Space. ARIMA - не найкраща техніка моделювання часових рядів. (Насправді процедура ARIMA у вашому статистичному програмному забезпеченні, що вибирається, ймовірно, використовує представлення State Space під кришкою.)


5

Щоб додати трохи кольорів у відповідь на виявлення аномалії Redhqs, на роботі я будую моделі виявлення аномалії для таких оперативних показників, як потоки продажів та трафіку. Ми робимо аналіз часових рядів, щоб зрозуміти, якими повинні бути продажі, якщо все працює, як очікувалося, а потім порівняємо їх із спостережуваними значеннями, щоб побачити, чи порушено веб-сайт. Це важливо, оскільки щохвилини сайт залишається вниз, ми втрачаємо багато грошей.

Існують різні методи, якими можна скористатися, і різні методи намагаються досягти різних речей у багатьох випадках. Наприклад, основний статистичний метод, який я використовував для виявлення аномалії продажів, називається "STL" (декомпозиція сезонного тренду за допомогою льосу). Це розділяє регулярну сезонність, тенденцію та випадковий шум. Ми фактично використовуємо це для визначення як щоденних, так і тижневих сезонностей. Потім ми викидаємо шум і поєднуємо тенденцію / сезонність для оцінки очікуваних продажів. Тож у нашому випадку ми використовуємо підхід, щоб зрозуміти, як продажі змінюються залежно від часу доби та часу тижня, та щоб виключити випадковий шум із оцінок.


Виявляється, ви будуєте моделі часових рядів, які передбачають відсутність аномалій, таким чином, не можуть бути надійними в порівнянні з моделями ідентифікаційних стратегій, які явно дозволяють одночасно ідентифікувати як пріоритет SARIMA, так і очікує їх виявлення Структура інтервенції (Імпульси, зміна рівня / кроку) , сезонні імпульси, місцеві тенденції часу)
IrishStat

STL algo має прапор стійкості (він контролює кількість ітерацій петлі згладжування). Так чи інакше це працює для нашого часового ряду.
Віллі Вілер

# ітерацій не стосується зміщення в модельній формі, якщо є детермінована структура, яка чекає їх виявлення.
IrishStat

3

Окрім чудових відповідей, наданих іншими, я хотів би прокоментувати те, як аналізуються часові ряди в електротехніці.

Значна частина електротехніки складається з модуляції напруг і струмів для передачі інформації або використання датчиків для перетворення фізичного сигналу (наприклад, звукової хвилі) в електричну форму, від якої очікується прийняти рішення комп'ютер. Аналогово-цифровий (A / D) перетворювач перетворює ці сигнали в набір рівномірно розподілених (за часом) дискретних зразків, або часовий ряд! Методи аналізу часових рядів є основою майже всіх сучасних алгоритмів обробки сигналів.

Наприклад, обробка мови складається з використання мікрофона для перетворення звукової хвилі в електричну напругу, яка відбирається за допомогою А / Д, після чого створюється модель часового ряду сигналу. Наприклад, лінійні кодировщики прогнозування (LPC) в стільникових телефонах створюють модель ARMA з вимовлених слів і передають коефіцієнти моделі (разом з індексом, що представляє сигнал збудження із заздалегідь визначеного словника) замість самих зразків даних для досягнення стиснення даних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.