Як порівняти 2 нестаціонарні часові ряди, щоб визначити кореляцію?


11

У мене є дві серії даних, які відображають середній вік при смерті з часом. Обидві серії демонструють збільшення віку при смерті з часом, але одна значно нижча за іншу. Я хочу визначити, чи значно збільшується вік при смерті нижньої проби, ніж у верхньої вибірки.

Ось дані , упорядковані за роками (з 1972 по 2009 р. Включно), округленими до трьох знаків після коми:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Обидві серії нестаціонарні - як я можу порівняти обидві, будь ласка? Я використовую STATA. Будь-яка порада буде вдячно отримана.

Діаграми даних


Якщо ви надасте посилання на свої дані, Метт, ми можемо відредагувати ваше запитання, щоб включити ці дані.
whuber

Дякую за інтерес до мого становища - посилання на дані додані. Будь-яка допомога буде вдячна.Матт
Метт Херлі

@ Метт: Поглянувши на ваші дані, схоже, що вони обидва тенденції до зростання. Тож вас по суті цікавить гіпотеза, що одна когорта збільшується швидше, ніж інша?
Андрій

Так, Ендрю - верхня когорта - це загальна популяція, тоді як когорта з меншим віком смерті - це група, яка помирає з однакового стану. Нульовою гіпотезою є те, що якщо вони тісно співвідносяться, будь-яке поліпшення виживання, можливо, пов'язане із загальними факторами (а не покращеним доглядом за цим станом).
Метт Херлі

Зростання, однак виміряні, настільки очевидно різні, що ніякого формального тесту не потрібно. (Ви отримаєте p-значення або менше майже незалежно від того, як ви оцінюєте та порівнюєте нахили, незалежно від того, як моделюєте варіацію.) Різниця в тривалості життя експоненціально зменшується зі швидкістю 0,83% за рік. Цікавою є раптова невдача в когорті B 2001 року; ця зміна - еквівалентна миттєвій втраті прогресу за шість років - є статистично значущою. 1010
whuber

Відповіді:


14

Це проста ситуація; давайте так будемо. Головне - зосередитись на тому, що важливо:

  • Отримання корисного опису даних.

  • Оцінка окремих відхилень від цього опису.

  • Оцінка можливої ​​ролі та впливу випадковості в інтерпретації.

  • Підтримання інтелектуальної цілісності та прозорості.

Є ще багато варіантів, і багато форм аналізу будуть достовірними та ефективними. Проілюструємо тут один підхід, який можна рекомендувати для його дотримання цих ключових принципів.

Для збереження цілісності давайте розділимо дані навпіл: спостереження з 1972 по 1990 роки та спостереження з 1991 по 2009 роки (по 19 років у кожній). Ми помістимо моделі до першої половини, а потім подивимося, наскільки добре працює проект в другій половині. Це має додаткову перевагу у виявленні суттєвих змін, які могли статися протягом другої половини.

Для отримання корисного опису нам необхідно: (а) знайти спосіб виміряти зміни та (б) підлаштувати найпростішу можливу модель, відповідну для цих змін, оцінити її та ітеративно підходити до більш складних для розміщення відхилень від простих моделей.

(a) у вас є багато варіантів: ви можете переглянути необроблені дані; ви можете подивитися на їх річні відмінності; ви можете зробити те ж саме з логарифмами (для оцінки відносних змін); ви можете оцінити роки втраченого життя або відносну тривалість життя (ПРАВ); або багато іншого. Подумавши, я вирішив розглянути RLE, визначений як відношення тривалості життя в когорті B відносно відношення до (довідкової) когорти A. На щастя, як показують графіки, тривалість життя в когорті А регулярно збільшується в стабільній мода з часом, так що більшість випадкових змін у RLE відбуватиметься через зміни в когорті B.

(b) Найпростіша можлива модель для початку - лінійна тенденція. Подивимося, як добре це працює.

Фігура 1

Темно-сині точки в цьому сюжеті - це дані, збережені для пристосування; точки зору з легкого золота - це наступні дані, які не використовуються для підгонки. Чорна лінія підходить, з нахилом .009 / рік. Штрихові лінії - це інтервали прогнозування для окремих майбутніх значень.

В цілому придатність виглядає добре: експертиза залишків (див. Нижче) не показує суттєвих змін у їх розмірах з часом (протягом періоду даних 1972-1990). (Є певні вказівки, що вони, як правило, збільшуються на ранніх стадіях, коли тривалість життя була низькою. Ми могли б впоратися з цим ускладненням, пожертвувавши деяку простоту, але користь для оцінки тенденції навряд чи велика.) Є просто найменший натяк послідовного кореляційного зв’язку (проявляється деякими прогонами позитивних та прогонів негативних залишків), але, очевидно, це неважливо. Немає аутлайнерів, які б позначалися пунктами, що виходять за межі смуг передбачення.

Одне здивування полягає в тому, що в 2001 році значення раптово впали на нижчу смугу прогнозування і залишилися там: щось досить раптове і велике сталося і тривало.

Ось залишки, які є відхиленнями від описаного раніше опису.

Малюнок 2

Оскільки ми хочемо порівняти залишки до 0, вертикальні лінії наводяться до нульового рівня як наочний посібник. Знову ж, сині точки показують дані, які використовуються для пристосування. Легкі золоті - залишки для даних, що падають біля нижньої межі прогнозування, після 2000 року.

З цієї цифри ми можемо оцінити, що ефект зміни 2000-2001 рр . Становив приблизно -0,07 . Це відображає раптове падіння 0,07 (7%) повної тривалості життя в когорті В. Після цього падіння горизонтальна картина залишків показує, що попередня тенденція тривала, але на новому нижчому рівні. Цю частину аналізу слід вважати дослідницькою : вона не була спеціально спланована, але виникла завдяки дивовижному порівнянню між даними, що були проведені (1991–2009 рр.) Та відповідності решті даних.

Інша річ - навіть використовуючи дані лише за 19 ранніх років, стандартна похибка нахилу невелика: це лише .0009, лише десята частина оціночного значення .009. Відповідна t-статистика 10, що має 17 градусів свободи, надзвичайно значна (р-значення менше ); тобто ми можемо бути впевнені, що тенденція обумовлена ​​не випадковістю. Це частина нашої оцінки ролі випадковості в аналізі. Інші частини - це експертизи залишків.107

Здається, немає підстав для встановлення більш складної моделі до цих даних, принаймні, не для того, щоб оцінити, чи існує справжня тенденція у RLE протягом часу: є така. Ми могли б піти далі і розділити дані на значення до 2001 року та значення після 2000 року, щоб уточнити наші оцінкитенденцій, але проводити тести на гіпотезу було б не зовсім чесно. Значення р було б штучно низьким, оскільки тестування на розщеплення не було заплановано заздалегідь. Але як дослідницька вправа така оцінка є чудовою. Дізнайтеся все, що можна, зі своїх даних! Будьте обережні, щоб не обманювати себе переозброєнням (що майже впевнено трапиться, якщо ви використовуєте більше півдесятка параметрів або близько того, або використовуєте автоматизовану техніку пристосування) або прослуховування даних: будьте уважні до різниці між офіційним підтвердженням та неофіційним (але цінні) дослідження даних.

Підведемо підсумки:

  • Вибравши відповідний показник тривалості життя (ЗНО), простягнувши половину даних, встановивши просту модель та протестувавши цю модель на решті даних, ми з високою впевненістю встановили, що : була послідовна тенденція; вона була близькою до лінійної протягом тривалого періоду часу; і в 2001 році відбулося раптове стійке падіння RLE.

  • Наша модель вражає парсимонічністю : для точного опису ранніх даних потрібні лише два числа (нахил та перехоплення). Для опису очевидного, але несподіваного відходу від цього опису потрібна третя (дата перерви 2001 р.). Немає аутлайнерів щодо цього опису трьох параметрів. Модель не буде суттєво вдосконалена, характеризуючи послідовну кореляцію (фокус методів часових рядів), намагаючись описати проявлені невеликі відхилення (залишки) або ввести складніші пристосування (наприклад, додавання в квадратичну складову часу або моделювання змін розмірів залишків у часі).

  • Тенденція склала 0,009 RLE на рік . Це означає, що з кожним роком очікувана тривалість життя в когорті Б додала 0,009 (майже 1%) від повного очікуваного нормального життя. Протягом дослідження (37 років) це склало б 37 * 0,009 = 0,34 = третину повного покращення життя. Незмінність у 2001 році скоротила цей приріст до приблизно 0,28 повної тривалості життя з 1972 по 2009 рік (хоча за цей період загальна тривалість життя зросла на 10%).

  • Хоча ця модель може бути вдосконалена, вона, ймовірно, потребує більше параметрів, і вдосконалення навряд чи буде великим (як свідчить майже випадкова поведінка залишків). Тоді ми в цілому повинні задовольнитись таким компактним, корисним, простим описом даних для такої невеликої аналітичної роботи.


: при цьому визначені одноразові імпульси не грають ніякої ролі в прогнозі на кмітливість:
IrishStat

2

Я думаю, що відповідь Ваубера є зрозумілою і зрозумілою для людини, яка не є серією, як це я. Я базую свою на його. Моя відповідь - це не R Stata, оскільки я так добре не знаю.

Цікаво, чи питання насправді не вимагає від нас подивитись, чи абсолютний річний приріст у річному обчисленні однаковий у двох когортах (а не відносний). Я думаю, що це важливо, і проілюструю це так. Розглянемо наступний приклад іграшки:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

введіть тут опис зображення

Тут ми маємо 2 когорти, кожна з яких постійно збільшує середню виживаність на рік. Таким чином, щороку обидві групи в цьому прикладі збільшуються на однакову абсолютну суму, але RLE дає наступне:

rle <-  a / b
plot(rle)

введіть тут опис зображення

Що, очевидно, має тенденцію до зростання, а значення р для перевірки гіпотези про те, що градієнт лінії 0 дорівнює 2,2е-16. Встановлена ​​пряма лінія (ігноруємо, що ця лінія виглядає вигнутою) має градієнт 0,008. Отже, хоча обидві когорти мають однаковий абсолютний приріст за рік, RLE має нахил вгору.

Отже, якщо ви використовуєте RLE, коли хочете шукати абсолютні збільшення, то ви неправильно відкинете нульову гіпотезу.

Використовуючи надані дані, обчислюючи абсолютну різницю між когортами, які ми отримуємо: введіть тут опис зображення

Звідси випливає, що абсолютна різниця між середньою виживаністю поступово зменшується (тобто когорта з поганою виживаністю поступово наближається до когорти з кращим виживанням).


: Ендрю відзначте два кластера залишків у кінці вашої графіки. Це говорить про потенційний недолік у вашому аналізі. На жаль, навіть кваліфіковані математики, які також є кваліфікованими статистиками, іноді не є людьми з часових рядів. Що я запропонував - це стандартна операційна процедура для аналізу часових рядів.
IrishStat

@andrew Приємна відповідь. Я прихильнився, я вірю у вашу кваліфікацію!
Адам

1
: Адам Спасибі за ваші приємні слова. Ви зауважите, що я думаю лише про проблеми / питання часових рядів, де я маю певний досвід, оскільки спеціалізувався в цій галузі протягом останніх 40 років.
IrishStat

@IrishStat дотик дискурсивний. Приємний досвід, ви ставили на місце панків, як я, ще до мого народження.
Адам

: Адам Вся ідея - допомогти іншим людям. Я справді сподіваюся, що так було. Мене бентежить слово "панки", оскільки я зовсім не маю цього почуття. Просто намагаюся допомогти!
IrishStat

1

Ці два часові ряди, схоже, мають детерміновану тенденцію. Це одне відношення, яке ви, очевидно, хочете видалити перед подальшим аналізом. Особисто я би поступив так:

1) Я би запустив регресію для кожного часового ряду проти константи та часу та обчислив залишковий для кожного часового ряду.

2) Беручи два залишкових ряду, обчислені на етапі вище, я би провів просту лінійну регресію (без постійного терміна) і подивився б на t-статистику, p-значення, і вирішив, чи існує додаткова залежність між дві серії.

Цей аналіз передбачає той самий набір припущень, який ви робите в лінійній регресії.


: user3544 Запуск регресії проти константи у часі - це форма детрендації, яка є однією з форм попереднього відбілювання; диференціація - це ще одна форма попереднього відбілювання: обидва є презумпційними, оскільки можуть бути численні тенденції або різні форми операторів розмежування. Зауважте, що оператор розрізнення - це окремий випадок фільтра ARIMA, який перетворює серію в білий шум. Взагалі хочеться відфільтрувати X, щоб він шумів (x), а потім застосував цей фільтр до Y, щоб створити y (не обов'язково білий шум) для ідентифікації структури або передачі між Y і X.
IrishStat

: User3544 Я повинен був аплодувати вашому використанню простих нескладних одиночних трендів, але я думаю, що іноді це не повинно бути припущенням. Простий тренд часто марний, якщо в серії є зрушення рівня або є ряд тенденцій. Тестування гіпотези щодо сталості параметрів повинно бути надійним і проводитись там, коли потрібно шукати момент часу, коли параметри можуть змінитися, а не довільно візуально вибирати точку за допомогою тесту Чоу. Добре відомо, що незвичайні значення тестів зміщення вниз для автоматичної кореляції, тому потрібно їх виявляти.
IrishStat

IrishStat: ваші аплодисменти добре сприйняті та почуті .. :) Я повністю згоден з вашими коментарями, проте, враховуючи сюжети двох часових рядів, я подумав "Давайте будемо просто" .. :)
Lalas

1
: user3544 Моя улюблена цитата Ейнштейна - "Зробити все максимально просто, але не простіше" або перезавантажити Зробити моделі максимально простими, але не простішими, тому що деякі люди думають, що це проста мета, а це може стати причиною недостатнього аналізу. У цьому випадку вашої пропозиції було б достатньо, щоб визначити сучасну кореляцію та кореляцію відставання між двома групами, висвітлюючи зсув рівня. Детальніше: brainyquote.com/quotes/quotes/a/… .
IrishStat

0

У деяких випадках відома теоретична модель, яка може бути використана для перевірки вашої гіпотези. У моєму світі "знання" часто відсутні, і треба вдаватися до статистичних методів, які можна класифікувати як дослідницький аналіз даних, який підсумовує наступне. Коли аналізуються дані часових рядів, які є нестаціонарними, тобто мають автокореляційні властивості, прості перехресні кореляційні тести часто вводячи в оману, якщо помилкові позитиви можна легко знайти. Один з найбільш ранніх аналізів цього є в Yule, GU, 1926, "Чому ми іноді отримуємо нісенітницькі кореляції між часовими рядами? Дослідження вибірки та характер часових рядів", Journal of the Royal Statistics Society 89, 1– 64. Крім того, коли одна чи кілька серій були здійснені винятковою активністю (див. " раптова невдача в когорті Б 2001 р.), яка може ефективно приховати значні стосунки. Зараз виявлення зв’язку між часовими рядами поширюється на вивчення не тільки сучасних відносин, але й можливих відсталих відносин. Продовжуючи, якщо будь-яка серія була здійснена аномаліями (разовими подіями), тоді ми мусимо обґрунтувати наш аналіз, скоригувавшись на ці разові спотворення. У літературі часових рядів вказується, як визначити відносини за допомогою попереднього відбілювання, щоб більш чітко визначити структуру. Попереднє відбілювання коригує внутрішньокореляційну структуру до ідентифікації міжкореляційної структури. Зауважте, ключовим словом була ідентифікаційна структура. Такий підхід легко призводить до наступної "корисної моделі": Зараз виявлення зв’язку між часовими рядами поширюється на вивчення не тільки сучасних відносин, але й можливих відсталих відносин. Продовжуючи, якщо будь-яка серія була здійснена аномаліями (разовими подіями), тоді ми мусимо обґрунтувати наш аналіз, скоригувавшись на ці разові спотворення. У літературі часових рядів вказується, як визначити відносини за допомогою попереднього відбілювання, щоб більш чітко визначити структуру. Попереднє відбілювання коригує внутрішньокореляційну структуру до ідентифікації міжкореляційної структури. Зауважте, ключовим словом була ідентифікаційна структура. Такий підхід легко призводить до наступної "корисної моделі": Зараз виявлення зв’язку між часовими рядами поширюється на вивчення не тільки сучасних відносин, але й можливих відсталих відносин. Продовжуючи, якщо будь-яка серія була здійснена аномаліями (разовими подіями), тоді ми мусимо обґрунтувати наш аналіз, скоригувавшись на ці разові спотворення. У літературі часових рядів вказується, як визначити відносини за допомогою попереднього відбілювання, щоб більш чітко визначити структуру. Попереднє відбілювання коригує внутрішньокореляційну структуру до ідентифікації міжкореляційної структури. Зауважте, ключовим словом була ідентифікаційна структура. Такий підхід легко призводить до наступної "корисної моделі": якщо будь-яка серія була здійснена аномаліями (разовими подіями), тоді ми повинні обгрунтувати наш аналіз, пристосувавшись до цих одноразових спотворень. У літературі часових рядів вказується, як визначити відносини за допомогою попереднього відбілювання, щоб більш чітко визначити структуру. Попереднє відбілювання коригує внутрішньокореляційну структуру до ідентифікації міжкореляційної структури. Зауважте, ключовим словом була ідентифікаційна структура. Такий підхід легко призводить до наступної "корисної моделі": якщо будь-яка серія була здійснена аномаліями (разовими подіями), тоді ми повинні обгрунтувати наш аналіз, пристосувавшись до цих одноразових спотворень. У літературі часових рядів вказується, як визначити відносини за допомогою попереднього відбілювання, щоб більш чітко визначити структуру. Попереднє відбілювання коригує внутрішньокореляційну структуру до ідентифікації міжкореляційної структури. Зауважте, ключовим словом була ідентифікаційна структура. Такий підхід легко призводить до наступної "корисної моделі": Зауважте, ключовим словом була ідентифікаційна структура. Такий підхід легко призводить до наступної "корисної моделі": Зауважте, ключовим словом була ідентифікаційна структура. Такий підхід легко призводить до наступної "корисної моделі":

Y (T) = -194,45
+ [X1 (T)] [(+ 1,2396+ 1,6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

що говорить про сучасні відносини 1,2936 та відсталий ефект 1,6523. Зауважимо, що існує ряд років, коли саме незвичну діяльність визначали саме. (1975,2001,1983,1999,1976,1985,1984,1991 та 1989). Поправки за роки дозволяють нам більш чітко оцінити зв’язок між цими двома серіями.

З точки зору складання прогнозу

МОДЕЛЬ, ВИРАЗОВАНИЙ ЯК XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ константа

ПРАВИЧНА БУКОВА КОНСТАНТА: -194.45

COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340

COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835

I ~ L00030 0 -2.475963 X (39) * 1.000000 = -2.475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Чотири коефіцієнти - це все, що потрібно для прогнозування і, звичайно, прогнозування для когорти на період 39 (78.228616), отриманого з моделі ARIMA для когорти.


4
Дев'ять із 38 років демонструють "незвичайні" заходи? У моделі з (мабуть) 25 параметрами ?! Щось не так у цьому тлумаченні. Окрім усіх цих імпульсів та зсуву рівня, чи знайшли ви нелінійну складову ще в тренді когорти b?
whuber

2
Які числа знаходяться у правій колонці (3, 30, 29, 11 тощо)? Вони, здається, є частиною вашого опису даних, а тому є і параметрами. Навіть якщо ми їх не порахуємо, використовуючи 14 параметрів для опису 38 значень, особливо коли питання просто "чи існує тенденція?", Здається надмірним. З цього питання, яка саме тенденція? Де в усіх цих оцінках хтось це викопує? Якби лікар звернувся до вас і запитав: "гаразд, що було зроблено для пацієнтів у когорті Б з 1972 року", ви могли б сказати їм одним чітким реченням?
whuber

2
Повторне "дуже потужне передбачення": я можу нерозуміти, до чого належить ваша модель, але в цілому кращі описи методу (часового ряду чи іншим чином), який ідентифікує чверть даних як "незвичний" і вимагає "коригування", буде "переобладнаний" і "непотрібний складний". Ваше твердження про відсутність тенденції в когорті B просто неймовірне.
whuber

2
@Adam, оскільки цей аналіз по суті ігнорує інформацію про мінливість, що міститься в 10 "імпульсах", будь-які смуги прогнозування, які він розміщує навколо прогнозів, будуть надмірно оптимістичними (занадто жорсткими). Більше того, більш глибокий аналіз, який включає всі дані (на відміну від мого ілюстративного аналізу, що включає лише першу половину), виявить нелінійний компонент, що відповідає незначному спаду тренду, і тут теж не виявлено. Важливішим, ніж прогнозування, є розуміння ефекту 2000-2001 років: якщо його можна повторити, то всі прогнози, ймовірно, помиляються.
whuber

1
@whuber Я, правда, не знаю всіх технічних жаргонів, але ваше пояснення має багато сенсу. Дуже дякую.
Адам

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.