Як кластеризувати часові ряди?


22

У мене питання щодо кластерного аналізу. Є 3000 компаній, які повинні бути кластеризовані відповідно до їх енергоспоживання протягом 5 років. Кожна компанія має значення для кожної години протягом 5 років. Я хотів би дізнатись, чи мають деякі компанії однакову схему використання потужностей протягом періоду часу. Результати слід використовувати для щоденного прогнозування споживання енергії. Якщо у вас є ідеї щодо кластеризації часових рядів у SPSS, будь ласка, поділіться зі мною.


1
Я б запропонував вам ознайомитись із пов’язаними посиланнями в правій частині сторінки. Є досить багато питань дуже подібного характеру, див. Чи можливо зробити кластеризацію часових рядів на основі форми кривої? та моделювання поздовжніх даних, коли вплив часу змінюється у функціональній формі між індивідами лише на двох прикладах.
Andy W

Подібність Proc у SAS може кластеризувати часові ряди.
синоптик

Відповіді:


11

А) Витратьте багато часу на попередню обробку даних. Попередня обробка - це 90% вашої роботи.

В) Оберіть відповідний показник подібності для часового ряду. Наприклад, тут може бути хорошим вибором відстань переходу порогу. Ви, мабуть, не захочете динамічної дистанції викривлення часу, якщо у вас немає різних часових поясів. Перетин порогу може бути більш доцільним для виявлення тимчасових зразків, не звертаючи уваги на фактичну величину (яка, ймовірно, буде сильно відрізнятися від компанії до компанії).

C) Кластеруйте отриману матрицю дисимілярності за допомогою таких методів, як ієрархічна кластеризація або DBSCAN, які можуть працювати з функціями довільної відстані.


чи можете ви пояснити, чому динамічна відстань у деформації часу не є хорошим варіантом для кластеризації часових рядів?
Хардік Гупта

Це не було загальним твердженням. Це добре чи ні, залежить від того, хочете ви дозволити час викривлення, чи ні.
Anonymous-Mousse -Встановити Моніку

7

Ви можете поглянути на часові ряди прогнозування з денною, тижневою та річною періодичністюдля обговорення погодинних даних із залученням щоденних даних та свят / регресорів. У вас є 5 років даних, а в іншій дискусії було включено 883 щоденні значення. Я б сказав, що ви можете скласти погодинний прогноз, включаючи регресори, такі як день тижня; тиждень року та відпустки, використовуючи добові підсумки як додатковий прогноз. Таким чином, у вас буде 24 моделі для кожної з 3000 компаній. Тепер, що ви хочете зробити, це за годиною, оцініть 3 000 моделей, використовуючи загальну структуру ARIMAX, що враховує схему реакції навколо кожного з регресорів, зміни дня в день тижня, зміни дня тижня параметри та тижневі показники при ізоляції видатків. Тоді ви можете оцінити параметри в усьому світі, використовуючи всі 3000 компаній. Проведіть тест на чау http://en.wikipedia.org/wiki/Chow_testза сталістю параметрів і при відхиленні кластеризують компанії в однорідні групи. Я назвав це однотипним кластерним аналізом. Оскільки SPSS має дуже обмежені можливості у часових рядах, ви, можливо, захочете шукати інше програмне забезпечення.


1
"ваніль" здається дивним словом для вживання про R; Не зрозуміло для перекладу у більш звичній термінології R. Будь-яка різниця між базовим R та додатковими пакетами від CRAN насправді не кусає досвідчених користувачів або навіть початківців, оскільки вони однаково безкоштовні та однаково доступні. Моє враження, що хтось, хто мав доступ до SPSS, може досить легко сказати, що в SPSS щось зараз неможливо без програмування; сказати те саме про R вимагає ознайомлення з усіма пакетами часових рядів.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.