На які проблеми слід звертати увагу при поєднанні декількох часових рядів?


10

Скажімо, у мене є ряд часових рядів, наприклад, кількість температурних записів різних станцій у регіоні. Я хочу отримати єдиний температурний рекорд для всього регіону, з яким я міг би описати аспекти регіонального клімату. Інтуїтивно зрозумілим підходом може бути просто взяти середній показник для всіх станцій на кожному кроці, але мій статистичний почуття павука (з яким я точно не дуже добре зв’язуюся) говорить мені, що це може бути не таким простим. Зокрема, я думаю, що усереднення по всьому регіону видалить деякі цікаві крайні температури, і у мене можуть виникнути проблеми із залежністю між близькими станціями.

З якими іншими проблемами я можу зіткнутися, якщо я спробував подібну стратегію, і чи є способи їх подолання чи більш розумні методи комбінування такого роду даних?

Примітка. Відповіді можуть бути більш загальними, ніж представлений нами просторовий приклад.


1
Проблема може бути у вашому конфлікті між "єдиним температурним записом для цілого регіону" та будь-яким інтересом, який ви маєте для зміни в межах регіону. Рішення може передбачати певний спосіб узгодження цих двох питань, наприклад, дисперсія розподілу на внутрішньо- та міжрегіональні компоненти.
Пітер Елліс

@PeterEllis, так, я про це смутно думав. Для цілей цього питання припустимо, що мені не байдуже внутрішньорегіональна просторова мінливість.
naught101

в такому випадку я думаю, що головне, про що ти повинен турбуватися, - це залежність між близькими станціями. Знайдіть спосіб зважування спостережень, які ефективно копіюють сусідню станцію, і вам повинно бути все в порядку.
Пітер Елліс

@PeterEllis: гаразд, але для цього може бути розумний фізичний спосіб - Близькість станцій не обов'язково означає, що вони більш залежні - тобто. дві близькі станції на протилежних сторонах гірського масиву можуть бути менш схожими, ніж дві віддалені станції на широкій рівнині. Чи є надійний спосіб статистично визначити залежність? Гадаю, коваріація ... Досі ймовірно, що в результуючому ряду буде менше піків (я думаю, що відображає фізичну ситуацію, хоча - зміни темпів у широкій області, ймовірно, будуть повільнішими і стійкішими, ніж на одному місці).
naught101

@naught, щодо просторового аспекту вашого питання, як визначаються ваші регіони? У своєму коментарі ви згадуєте, що дві близькі станції з протилежних сторін гори могли відрізнятися від двох віддалених станцій на широкій рівнині. Чи обмірковували Ви переосмислити станційні регіони на основі близькості та схожості для Вашого аналізу? Їм не доведеться обов'язково відповідати загальноприйнятим регіональним кордонам. Натомість вони можуть стати аналітичним накладом, який можна побудувати на традиційній карті.
дав

Відповіді:


1

По-перше, я хотів би сказати, що я б додав коментар, але поки не можу цього зробити (відповідь), але мені подобається питання і хотіли взяти участь, тому ось "відповідь". Також я бачу, що це старе, але цікаво.

По-перше, чи можна було б використовувати техніку зменшення розмірів, як PCA, для ущільнення часових рядів? Якщо перше власне значення велике, можливо, це означає, що ваше використання власного вектора буде представляти більшу частину динаміки.

По-друге, і в цілому, яке саме бажане ви використовуєте часовий ряд? Не знаючи нічого іншого, я б здогадався, що температури можуть дещо відрізнятися. Наприклад, якщо деякі температурні записи знаходяться поблизу міст, ви можете отримати ефект типу "острів тепла". Або, можливо, невелика зміна бічної відстані спричинить велику зміну вертикальної відстані --- одне місце розташування може бути на рівні моря і прямо на березі океану, а інше не «занадто далеко», але на кілометрі висоти. У них, безумовно, різні температури!

Це лише деякі думки. Можливо, хтось інший міг би заскочити і дати кращу відповідь.


1
Гарна думка. Якщо чесно, я не можу пригадати, який був контекст цього питання, і я маю відчуття, що мої коментарі вводили в оману. Мене конкретно зацікавило те, щоб не втратити змінності, загальної для всіх станцій, а поза фазою. Подумайте про станції по всьому континенту і холодний фронт, що проходить поперек. Просте просторове середнє може в основному прибрати холодний фронт, що насправді не дуже добре, оскільки кожна станція демонструє це сильно, але в різний час. Можливо, запуск якоїсь PCA на кожній станції, а потім усереднення результатів якимось чином може бути способом подолати це.
naught101

О, гаразд, так що якщо ви намагаєтесь охарактеризувати тенденцію часових рядів у регіоні, можливо, вам слід зробити часовий ряд нерухомим, і кожен із середнім значенням 0. Ви також можете спробувати зняти щоденний цикл з кожен (або просто беруть середньоденні показники). Тоді вам залишаться зміни низьких частот температури, кожна з яких орієнтована на середнє значення 0. Після цього, можливо, ви могли б ущільнити центрирований + стаціонарний часовий ряд, використовуючи певну техніку зменшення розмірів, наприклад, PCA. Я радий, що ти трохи поговорив про контекст питання, але це справді допомагає. Хороший матеріал!
rbatt
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.