Підводні камені в аналізі часових рядів


46

Я тільки починаю самонавчання з аналізу часових рядів. Я помітив, що існує ряд потенційних підводних каменів, які не застосовуються до загальної статистики. Отже, спираючись на Які загальні статистичні гріхи? , Я хотів би запитати:

Що таке загальні підводні камені або статистичні гріхи в аналізі часових рядів?

Це розроблено як вікі спільноти, одна концепція на кожну відповідь, і будь ласка, не потрібно повторювати більш загальні статистичні підводні камені, які перераховані (або повинні бути перераховані) у розділі Що таке загальні статистичні гріхи?

Відповіді:


18

Екстраполяція лінійної регресії на часовий ряд, де час є однією з незалежних змінних у регресії. Лінійна регресія може наближати часовий ряд за короткою шкалою часу і може бути корисною для аналізу, але екстраполяція прямої лінії є нерозумною. (Час нескінченний і постійно збільшується.)

EDIT: Відповідаючи на запитання naught101 про "нерозумний", моя відповідь може бути неправильною, але мені здається, що більшість явищ у реальному світі не збільшуються та зменшуються постійно. Більшість процесів мають обмежуючі фактори: люди перестають зростати у зріст, запаси не завжди збільшуються, популяція не може вийти негативною, ви не можете заповнити свій будинок мільярд цуценят тощо. Час, на відміну від більшості незалежних змінних, що приходять На жаль, має нескінченну підтримку, тому ви дійсно можете уявити вашу лінійну модель, яка передбачає ціну акцій Apple через 10 років, оскільки 10 років з цього моменту, безумовно, існуватимуть. (Тоді як ви б не екстраполювали регресію висоти у вазі, щоб передбачити вагу дорослих чоловіків у 20 метрів: вони не існують і не існуватимуть.)

Крім того, часові ряди часто містять циклічні або псевдоциклічні компоненти або компоненти випадкової ходи. Як згадує IrishStat у своїй відповіді, потрібно враховувати сезонність (іноді сезонність у кількох часових масштабах), зміну рівня (що буде робити дивні речі для лінійних регресій, які не враховують їх) тощо. Лінійна регресія, яка ігнорує цикли, буде підходить за короткочасний термін, але будьте дуже введені в оману, якщо ви екстраполюєте його.

Звичайно, ви можете потрапити в проблеми, коли екстраполюєте, часові ряди чи ні. Але мені здається, що ми занадто часто бачимо, як хтось кидає в Excel часовий ряд (злочини, ціни на акції тощо), скидає на нього ПРОГНОМУВАННЯ або НАЙБІЛЬШЕ, і передбачує майбутнє по суті прямою лінією, ніби ціни на акції будуть постійно зростати (або постійно відхиляється, включаючи негатив).


Чи можете ви розширити, чому це нерозумно?
naught101

1
+1 для дивовижних прикладів. Я обчислюю, скільки саме цуценят я зараз можу помістити у себе вдома: D
naught101

3
Це чудова ілюстрація вашої точки зору: xkcd.com/605
Зак,

1
@naught Марк Твен зробив чудову роботу, показавши найпростішою можливою мовою, чому "нерозумний" підходить до лінійної екстраполяції часового ряду.
whuber

І це: stats.stackexchange.com/a/13904/9007 ... Аналогічний момент - екстраполяція поліноміального тренда (особливо високого ступеня) або будь-якої іншої моделі, яка не має фізичної актуальності. Я написав пост у блозі про те, чому це погана ідея , коли я навчав себе октавою.
naught101

13

Зверніть увагу на співвідношення двох нестаціонарних часових рядів. (Не є несподіваним, що вони матимуть високий коефіцієнт кореляції: пошук за "нечуттєвою кореляцією" та "коінтеграцією".)

Наприклад, на кореляті google собаки та пірсинг вуха мають коефіцієнт кореляції 0,84.

Більш старий аналіз див. У дослідженні проблеми Юля 1926 року


Звичайно, не завжди. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
naught101

@Wayne Дякую тонну за папір Yule. Я цитую це з 1970 року і ніколи насправді не читав. Це добре відомо в деяких, мабуть, невеликих колах.
IrishStat

7

На найвищому рівні Колмогоров визначив незалежність як ключове припущення статистики - без припущення про те, що багато важливих результатів статистики не відповідають дійсності, незалежно від того, чи застосовуються вони до часових рядів чи більше загальних завдань аналізу.

Послідовні або сусідні зразки в більшості реальних сигналів дискретного часу не є незалежними, тому слід обережно розкласти процес на детерміновану модель і стохастичний компонент шуму. Незважаючи на це, незалежне збільшення припущення в класичному стохастичному обчисленні є проблематичним: пригадаймо Нокона Нобеля 1997 року та імпровізацію LTCM 1998 року, яка підрахувала лауреатів серед його директорів (хоча справедливо, менеджер фонду Merrywthether, швидше за все, винен, ніж кількісний методи).


"аналіз часових рядів" як сфера дослідження. В основному я маю на увазі будь-яку річ, яка може привернути когось нового до вивчення часових рядів (будь-якого типу та будь-якого типу аналізу). Я не шукаю вичерпних відповідей. Перевірте питання, на яке я посилався у своєму питанні, щоб відчути, що я тут намагаюся зробити.
naught101

Я мав на увазі, який тип аналізу
alancalvitti

Я знаю. Я думаю, ви пропускаєте суть питання. Не соромтесь коментувати поширені камені спотикання в аналізі будь-якого типу , будь-якого типу проблем із тимчасовими рядами, з якими ви маєте досвід. Просто тримайте це за проблеми, характерні для часових рядів.
naught101

Привіт @alancalvitti, приклад економіки звучить цікаво. Чи знаєте ви хороший опис цього опису, на який ми могли б посилання звідси?
naught101

Я відредагував цю відповідь, щоб повернути її до основної поданої точки (щоб повернути її до стилю "одна за відповідь"). Це означало вилучення інформації про спектральний аналіз. Можливо, щось могло б сказати про це в окремій відповіді (хоча, здається, це не про підводні камені, зокрема, тут, мабуть, є підводні камені, що стосуються спектрального аналізу, які ми могли б тут відзначити). Вищезгадане обговорення зараз не має сенсу, але ви
розумієте, що

2

Занадто впевнений у результатах вашої моделі, оскільки ви використовуєте техніку / модель (наприклад, OLS), яка не враховує автокореляцію часових рядів.

Я не маю приємного графіка, але книга "Вступний часовий ряд з R" (2009, Cowpertwait та ін.) Дає розумне інтуїтивне пояснення: якщо є позитивна автокореляція, значення вище або нижче середнього, як правило, зберігатимуться і бути об'єднаними разом у часі. Це призводить до менш ефективної оцінки середнього значення, що означає, що вам потрібно більше даних, щоб оцінити середнє значення з тією ж точністю, ніж якщо б не було нульової автокореляції. У вас фактично менше даних, ніж ви думаєте, що є.

Процес OLS (і, отже, ви) припускаєте, що не існує автокореляції, тому ви також припускаєте, що оцінка середнього значення більш точна (для кількості ваших даних), ніж є насправді. Таким чином, ви зрештою впевнені у своїх результатах, ніж повинні бути.

(Це може подіяти і в іншому випадку для негативної автокореляції: ваша оцінка середньої величини насправді є більш ефективною, ніж це було б інакше. У мене немає чого доводити це, але я б припустив, що позитивна кореляція частіше зустрічається в більшості реального часу серія, ніж негативна кореляція.)


Приклад тут був би чудовим, я не повністю розумію відповідь, як вона є
naught101

Дякую за редагування @ Wayne, але я мав на увазі приклад із реального світу, бажано з деякою візуалізацією. Очевидно, що й інші можуть додати це - це вікі спільноти.
naught101

1
@ naught101: Ага. Дві з трьох моїх пропозицій, які я зробив тут, ґрунтуються на тому, що я навчився, але не обов'язково досить добре, щоб зробити хороший приклад. Я спробую шукати його в Інтернеті.
Уейн

Це лише імітовані дані, але у моїй відповіді на інше питання є якийсь код R з моделлю, що відповідає OLS, а потім більш доцільно з урахуванням автокореляції - із різко більшими значеннями p. stats.stackexchange.com/questions/27254/…
Пітер Елліс

2

Вплив зрушень рівня, сезонних імпульсів та місцевих тенденцій часу ... крім одноразових імпульсів. Зміни параметрів з часом важливі для дослідження / моделювання. Можливі зміни варіацій помилок з часом повинні бути досліджені. Як визначити, як на Y впливають сучасні та відсталі значення X. Як визначити, чи можуть майбутні значення X впливати на поточні значення Y. Як дізнатися в конкретні дні місяця, мають вплив. Як моделювати змішані проблеми частоти, коли погодинні дані впливають на щоденні значення?

night попросив мене надати більш конкретну інформацію / приклади про зміну рівня та імпульси. З цією метою я зараз включаю ще кілька обговорень. Серія, що демонструє АКФ, що говорить про нестаціонарність, фактично надає "симптом". Одним із запропонованих засобів захисту є "розходження" даних. Захищений засіб усунення "знецінення" даних. Якщо серія має "основний" зсув рівня в середньому (тобто інтерцепт), ACF цілого ряду може бути легко витлумачено неправильно, щоб запропонувати диференціювати. Я покажу приклад серії, яка демонструє зсув рівня. Якби я підкреслив (збільшив) різницю між двома засобами, ACF загальної серії запропонував би (неправильно!) Необхідність різниці. Неліковані імпульси / зсуви рівня / сезонні імпульси / місцеві тенденції часу збільшують дисперсію помилок, що підтверджують важливість структури моделі і є причиною хибних оцінок параметрів та поганих прогнозів. Тепер перейдемо до прикладу. Чтвведіть тут опис зображення- це список 27-ти місячних значень. Це графік введіть тут опис зображення. Є чотири імпульси та зсув 1 рівня І НЕ ТЕНДЕНЦІЯ! введіть тут опис зображенняі введіть тут опис зображення. Залишки цієї моделі передбачають процес білого шуму введіть тут опис зображення. Деякі (більшість!) Комерційних і навіть безкоштовних пакетів прогнозування забезпечують наступну глузливість внаслідок прийняття тенденції моделі з додатковими сезонними факторами введіть тут опис зображення. На закінчення та перефразовуючи Марка Твена. "Є дурниці і є дурниці, але найнечуттєвішою їхньою відсутністю є статистична дурниця!" порівняно з більш розумним введіть тут опис зображення. Сподіваюся, це допомагає!


1
Дійсно? Це все підводні камені та гріхи ? (Перечитайте наголошену частину питання!) Можливо, ви маєте на увазі протилежне тому, що ви написали?
whuber

Завдання моїх коментарів полягало в тому, щоб вказати на підводні камені не розважати чи розглянути деякі з цих можливих реальних структур. Потрібно уникати припущень, які не підтверджені належним чином, інакше можна отримати дуже сумнівні результати.
IrishStat

3
Я зібрав, що це було наміром, але в його нинішній формі вашу відповідь легко зрозуміти неправильно. Наприклад, чи гріх оцінювати "вплив" одноразових імпульсів "чи гріх не робити цього? Це достатньо розпливчасто, щоб можна було зробити гарний випадок для будь-якого тлумачення! (Так, це гріх, оскільки одноразові імпульси можуть бути просто застарілими людьми, на які ви не хочете надавати надмірний вплив, а облік на них усіх може переоцінити модель; ні, їх потрібно включити, оскільки їх ефекти можуть затримуватися тривалий час і ігнорування, що може упереджувати оцінки інших параметрів.)
whuber

@whuber Якщо вплив одноразового імпульсу затримується, це може бути змодельоване як послідовність одноразових імпульсів у послідовних точках. Це не так елегантно, як може бути, але все-таки ефективно. Як ви цілком правильно заявили, що ви не хочете, щоб значення, що спотворюють оцінку параметрів повторюваної структури, не мали значення, тому "гріхом" не ставитися до не визначеної детермінованої структури, такої як імпульси, зрушення рівня, сезонні імпульси та / або місцеві тенденції часу.
IrishStat

Я думаю, що це було б дійсно цікавою відповіддю, якби перше речення (зміщення рівня та імпульси) було значно розширено (з деякими прикладами), а решта було відмінено. Гетероскедастичність дала б хорошу окрему відповідь.
naught101

1

Визначення тенденції як лінійного зростання з часом.

Хоча деякі тенденції якимось чином лінійні (див. Ціна акцій Apple), і хоча діаграма часових рядів схожа на лінійну діаграму, де можна знайти лінійну регресію, більшість тенденцій не є лінійними.

Існують зміни крок, як зміни, коли щось траплялося в конкретний момент часу, що змінило поведінку вимірювання ( "Міст обвалився, і з цього моменту жоден автомобіль не переходить ").

Ще одна популярна тенденція - "Buzz" - експоненціальний ріст та подібний різкий спад після цього ( "Наша маркетингова кампанія мала величезний успіх, але ефект згасав через пару тижнів" ).

Знання правильної моделі (логістична регресія тощо) тенденції в часових рядах має вирішальне значення у можливості виявити її в даних часових рядів.


1

На додаток до деяких чудових моментів, які вже були згадані, я додам:

  1. Невизначення довгих циклів або сезонності - шляхом вивчення лише даних протягом "недостатньо тривалого" періоду часу
  2. Нездатність оцінювати помилку прогнозування за минулі періоди ( повторна перевірка )
  3. Невизначення та боротьба зі змінами режиму

Ці проблеми пов'язані не зі статистичними методами, а із розробкою дослідження, тобто які дані включати та як оцінювати результати.

Складна частина пункту 1. - це переконання, що ми спостерігали достатній період даних, щоб зробити висновки про майбутнє. Під час моєї першої лекції з часових рядів професор намалював довгу криву синуса на дошці і зазначив, що довгі цикли виглядають як лінійні тенденції, коли спостерігаються за коротким вікном (досить просто, але урок приклеюється зі мною).

Точка 2. особливо актуальна, якщо помилки вашої моделі мають певні практичні наслідки. Серед інших галузей він широко застосовується у галузі фінансів, але я заперечую, що оцінка помилок прогнозування в минулі періоди має багато сенсу для всіх моделей часових рядів, де дані це дозволяють.

Пункт 3. знову торкається теми, яка частина минулих даних є репрезентативною для майбутнього. Це складна тема з великою кількістю літератури - я назову свого особистого фаворита: Цукіні та Макдональд як приклад.


1

Уникайте зшивання у вибіркових часових рядах. Якщо ви аналізуєте дані часових рядів, які вибираються з вибіркою через рівні проміжки часу, то частота дискретизації повинна бути вдвічі більшою за частоту найвищої частотної складової в даних, які ви відбираєте. Це теорія дискретизації Найквіста, і вона застосовується до цифрового звуку, а також до будь-якого часового ряду, вибіреного через рівні проміжки часу. Спосіб уникнення згладжування - це відфільтрувати всі частоти, що перевищують частоту найквіста, що становить половину швидкості вибірки. Наприклад, для цифрового звуку для частоти вибірки 48 кГц знадобиться фільтр низьких частот із відсіканням нижче 24 кГц.
Ефект згладжування можна побачити, коли колеса, як здається, крутяться назад, внаслідок стробіскопічного ефекту, коли швидкість обертання близька до швидкості обертання колеса. Повільна швидкість, що спостерігається, є псевдонімом фактичної швидкості обертання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.