Порівняння наборів часових рядів


10

У мене є три набори даних часових рядів, які я хочу порівняти. Їх приймали на 3 окремих періоди приблизно 12 днів. Вони є середнім, максимальним та мінімальним числом головок, узятих у бібліотеці коледжу протягом фінальних тижнів. Мені довелося мати значення, max та min, оскільки погодинний підрахунок голови не був безперервним (див. Регулярні розриви даних у часовому ряду ).

Тепер набір даних виглядає приблизно так. Є один пункт даних (середній, максимум або хв) на вечір, протягом 12 вечорів. Існують 3 семестри, за які були взяті дані лише у 12-денні тривожні періоди. Так, наприклад, весна 2010, осінь 2010 та травень 2011 року мають набір з 12 балів. Ось приклад діаграми:

введіть тут опис зображення

Я переклав семестри, тому що хочу побачити, як шаблони змінюються від семестру до семестру. Однак, як мені було сказано в пов'язаній темі , не годиться плескати семестри хвіст до голови, оскільки між ними немає даних.

Питання тоді: Яку математичну техніку я можу використовувати, щоб порівняти схему відвідування кожного семестру? Чи є щось особливе у часових рядах, що я повинен робити, або я можу просто взяти відсоткові різниці? Моя мета сказати, що використання бібліотеки в ці дні збільшується або зменшується; Я просто не впевнений, яку техніку (-и) я повинен використовувати для її показу.

Відповіді:


8

Фіксовані ефекти ANOVA (або його еквівалент лінійної регресії) забезпечує потужне сімейство методів аналізу цих даних. Для ілюстрації тут представлений набір даних, що відповідає графікам середнього показника HC на вечір (один графік на колір):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA countпроти dayі colorвиробляє цю таблицю:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

Значення modelр 0,0000 показує, що придатність дуже значна. Значення dayр 0,0000 також має велике значення: ви можете виявляти зміни в день. Однак значення р color(семестр) 0.2001 не слід вважати значним: ви не можете виявити систематичну різницю між трьома семестрами, навіть контролюючи щоденні зміни.

Тест HSD Тукі ("чесна суттєва різниця") визначає наступні суттєві зміни (серед інших) щоденних засобів (незалежно від семестру) на рівні 0,05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Це підтверджує те, що око може бачити на графіках.

Оскільки графіки стрибають зовсім небагато, немає можливості виявити щоденні кореляції (послідовне співвідношення), що полягає у всьому сенсі аналізу часових рядів. Іншими словами, не турбуйтеся з прийомами часових рядів: тут недостатньо даних, щоб вони могли зрозуміти більше.

Завжди варто дивуватися, наскільки вірити результатам будь-якого статистичного аналізу. Різні діагностики гетероскедастичності (наприклад, тест Брюша-Язичника ) не показують нічого зворотного. Залишки не виглядають дуже нормально - вони збиваються в деякі групи - тому всі р-значення потрібно брати з зерном солі. Тим не менш, вони здаються розумними вказівками та допомагають кількісно оцінити сенс даних, які ми можемо отримати, переглядаючи графіки.

Можна проводити паралельний аналіз на добових мінімумах або на добових максимумах. Почніть переконайтеся з аналогічним сюжетом, як керівництво, і перевірте статистичний результат.


+1, для демонстрації простих, але потужних прийомів. Мені найбільше цікаво, як вам вдалося витягти значення з графіка? Якесь програмне забезпечення чи покарання за погано поводиться студента? :)
mpiktas

1
@mp Я оцифровував точки на знімку екрана графіки, витягував їх координати за допомогою програмного забезпечення GIS, перетворював координати за допомогою електронної таблиці, а потім імпортував їх у пакет статистичних даних. Це займає всього кілька хвилин. Цей метод може бути корисним, коли єдині у вас дані є у вигляді діаграми чи карти.
whuber

@whuber Thats cool! Я цього не знав.
suncoolsu

@whuber Цікаво, який ефект має 3 набори з 12 автокорельованих показань порівняно з 36 незалежними спостереженнями. Я б подумав, що насправді у нас немає 35 градусів свободи для розсилки. Ймовірності, на які ви розмірковуєте, залежать від відношення не центральної змінної chi-квадрата до центральної змінної chi-квадрата. Щось тут мені не вистачає? Приємна робота з вилучення чисел із сюжету. Чи є якась програма, на яку ви можете звернутися, щоб допомогти нам у цьому плані.
IrishStat

1
@Irish Нехай - середнє значення (серед кольорів) для одного дня, а середнє значення для іншого. Я припускаю гомоскедастичність; тобто ( невідомо). Бажане порівняння ("використання ... йде вгору або вниз") перевіряє, чи . Без кореляції . З кореляцією між і , . Коли , дисперсія насправді менша, ніж передбачається в моделі ANOVA. Отже, t-статистика, F-статистика та Tukey HSD все повинно бути більшеy V a r ( x ) = V a r ( y ) = σ 2 σ x - y = 0 V a r ( x - y ) = 2 σ 2 ρ x y V a r ( x - y ) = 2 ( 1 - ρ ) σ 2 ρ > 0xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0істотніші, ніж вони з'являються.
whuber

0

Сара, візьміть свої 36 чисел (12 значень за цикл; 3 цикли) та побудуйте регресійну модель з 11 індикаторів, що відображають можливий ефект тижня семестру, а потім визначте будь-які необхідні серії інтервенцій (імпульси, зсув рівня), необхідних для надання середнє значення залишків повинно бути 0,0 скрізь або, принаймні, статистично не відрізняється від 0,0 Наприклад, якщо ви визначите зсув рівня на 13-му періоді, це може підказати статистично значущою різницею середнього значення першого семестру, тобто перших 12 значень) проти середнього значення для останніх двох семестрів (останні 24 значення). Можливо, ви зможете зробити висновок або перевірити гіпотезу про відсутність тижня семестрового ефекту. У цьому плані вам може бути корисний гарний пакет часових серій. Якщо цього не можливо, вам знадобиться знайти когось, щоб надати допомогу на цій аналітичній арені.


1
Це звучить як опис двосторонньої ANOVA (днів за циклами) з подальшими плановими тестами в 11 пар днів. Звичайне старе програмне забезпечення статистики, швидше за все, стане більш гнучким та потужним у використанні, ніж спеціалізоване програмне забезпечення часових рядів; це, безумовно, буде простіше. До речі, індекси - це дні (в екзаменаційний період), а не тиждень семестру.
whuber

Чи можу я також використовувати ANOVA для порівняння максимумів і мінімумів на день? Або це стосується лише засобів?
induvidyul

@Sarah Це може бути застосоване до мінімумів і максимумів. Однак ці статистичні дані, як правило, набагато більш мінливі, ніж засоби, тому менше ймовірність, що ви зможете виявити зміни в них протягом часу або між семестрами. На графіку видно, що засоби суттєво відрізняються. Якщо ви можете, зробіть ANOVA тристоронній , включивши годину дня та використовуючи початкові підрахунки за годину, а не щоденні засоби.
whuber

@whuber: Мені сказали, що об'єднання даних по погодинних даних не є корисним, оскільки вони записувалися лише з 12:00 до 6 ранку. Дивіться моє попереднє запитання Регулярні розриви даних у часовому ряду .
induvidyul

@Sarah Я говорю про щось інше: моделюйте залежність з точки зору трьох факторів: періоду (3 з них), дня в період (12 з них) та години дня (6 з них). Ви навіть можете врахувати співвідношення годин, але це може не знадобитися для ваших цілей. Незважаючи на те, я не виступаю за перегляд кожного періоду як перерваного ряду 12 * 24 рахунків: занадто багато відсутніх даних.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.