У мене є набір даних часових рядів. Кожна серія охоплює один і той же період, хоча фактичні дати в кожному часовому ряді можуть не всі «точно вирівнюватися».
Тобто, якби серія «Час» читалася у 2D матриці, вона виглядала б приблизно так:
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
Я хочу написати сценарій R, який розділить часові ряди {T1, T2, ... TN} на "сім'ї", де сім'я визначається як набір серій, які "мають тенденцію до співчуття" один з одним.
Для частини "кластеризації" мені потрібно буде вибрати / визначити вид вимірювання відстані. Я не зовсім впевнений, як це зробити, оскільки я маю справу з часовими рядами, і пара серій, яка може рухатись симпатично протягом одного інтервалу, може не робити цього в наступний інтервал.
Я впевнений, що тут є набагато досвідченіші / розумніші люди, ніж я, тому я буду вдячний за будь-які пропозиції, ідеї щодо того, який алгоритм / евристику використовувати для вимірювання відстані та як це використовувати для кластеризації часових рядів.
Я здогадуюсь, що НЕ існує встановленого надійного методу статистики для цього, тому мені було б дуже цікаво подивитися, як люди підходять / вирішують цю проблему - думаючи, як статистик.