Побудова часового ряду, що включає в себе кілька спостережень за кожною датою


11

Я намагаюся застосувати часовий ряд до щоквартальних вибіркових даних (тваринна біомаса) протягом 10 років з 3 повторами на квартал. Тож 40 дат, але 120 загальних спостережень.

Я читав до SARIMA'a в Shumway та Stoffer's Time Series Analysis, і це програми, а також знежирений Woodward та ін. Альфа - прикладний аналіз часових рядів, і я розумію, що кожна модель базується на одному спостереженні в кожній точці часового ряду.

ПИТАННЯ: Як я можу включити варіацію в кожне спостереження у своїй моделі? Я міг би побудувати серію в середньому, але я б втратив варіацію при кожному спостереженні, і вважаю, що це критично важливо для мого розуміння того, що відбувається.


SARIMA можна поширити на багатовимірний кейс, який може підійти вам. Ключове слово в цьому випадку - VAR. Це означає, що ви спостерігаєте вектор чисел замість одного числа за кожен часовий період.
mpiktas

Відповіді:


4

Залежно від того, що саме ви маєте на увазі під «3 повторення на чверть», модель панелі ( вікіпедія ) може мати сенс. Це означатиме, що ви проводите три вимірювання за квартал, по одному з кожного з трьох різних джерел, які залишаються однаковими з часом. Ваші дані виглядатимуть приблизно так:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

Якщо ви це дивитесь, існує ряд моделей роботи з даними на панелі. Ось гідна презентація, яка охоплює деякі основні R, які ви б використали для перегляду даних панелі. Цей документ заглиблюється трохи більше, хоч і з точки зору економетрики.

Однак якщо ваші дані не зовсім відповідають методологіям даних на панелі, існують інші інструменти для "об'єднаних даних". Визначення з цієї статті (pdf) :

Об'єднання даних означає статистичний аналіз з використанням безлічі джерел даних, що стосуються кількох груп населення. Він охоплює усереднення, порівняння та загальні інтерпретації інформації. Різні сценарії та проблеми також виникають залежно від того, джерела даних та популяції, що беруть участь, однакові / подібні чи різні.

Як ви бачите, з цього визначення методи, які ви збираєтеся використовувати, залежатимуть від того, що саме ви очікуєте дізнатися зі своїх даних.

Якби я запропонував вам почати місце для початку, припускаючи, що три розіграші за кожну чверть узгоджуються з часом, я б сказав, почати з використання фіксованого оцінювача ефектів (також відомого як оцінювач у межах) із панельною моделлю ваших даних дані.

У моєму прикладі вище, код виглядатиме приблизно так:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

Що дає нам такий вихід:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

Тут ми можемо чітко побачити вплив часу в коефіцієнті на чверть змінної, а також ефект перебування в групі В або групі С (на відміну від групи А).

Сподіваємось, це вказує вас десь у правильному напрямку.


3

Я думаю, що це цікаво. Моя пропозиція полягатиме в тому, щоб оцінити три точки даних, щоб отримати рівний часовий ряд. Як ви зазначаєте, якщо це робити, не враховуючи, що ви взяли в середньому три спостереження, ви викидаєте інформацію. Але для кожного моменту часу можна підсумовувати відхилення у квадраті від середнього. Об’єднайте ці суми квадратів за всі періоди часу і поділіть на n-1, де n - загальна кількість балів, використаних при обчисленні. Якщо у вас є модель зі структурою часових рядів (наприклад, тенденції, сезонна складова, структура залежності АР), цей розрахунок може бути незалежною та неупередженою оцінкою дисперсії терміна помилки в моделі.


1
+1 за корисну ідею, яка легко виконується і теоретично є дійсною. Однак одна невелика корекція: протягом періодів часу будуть спостерігатися значення . Незаангажована оцінка дисперсії розділить суму всіх квадратних відхилень на , а не або (або одна з них суттєво відрізняється і є неправильною). Напевно, слід скласти окремі оцінки дисперсії (по одному на часовий період) також з часом, щоб оцінити, чи правомірно об'єднувати їх усіх таким. 3нн3н2нн-13н-1
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.