Яка статистика зберігається при агрегації?


12

Якщо у нас довгий часовий ряд із високою роздільною здатністю, з великим рівнем шуму, часто має сенс агрегувати дані до нижчої роздільної здатності (скажімо, щоденних до місячних значень), щоб краще зрозуміти, що відбувається, ефективно видаляючи деякі шум.

Я бачив принаймні один документ, який потім застосовує деякі статистичні дані до агрегованих даних, включаючи для лінійної регресії на окремій змінній. Це дійсно? Я б міг подумати, що процес усереднення змінить результат непогано, завдяки зниженому шуму.r2

Загалом, чи можна деякі статистичні дані застосувати до узагальнених даних часових рядів, а інші ні? Якщо так, то які? Можливо, це лінійні комбінації?


Пов’язано, див. Екологічну помилку .
Andy W

1
щодо коментаря @cbeleites, я думаю, тут є теоретична відповідь - розширення вашої думки про збереження лінійних комбінацій. Однак у практичних умовах застосування дуже важко зробити загальний висновок щодо обгрунтованості підходу, і для цього повинен бути конкретний приклад.
Джонатан

Відповіді:


6

Я вважаю, що питання, як у заголовку, занадто широке, щоб відповісти корисно, тим більше, що це, мабуть, залежатиме як від методу агрегування, так і від статистики, про яку йдеться.

  • Це стосується навіть "середнього": ви намагаєтесь зберегти форму та інтенсивність сигналу (наприклад, фільтри Савіцкого-Голая), чи намагаєтесь зберегти область під сигналом (наприклад, льос)?

  • Очевидно впливає статистика, пов’язана з шумом: це, як правило, мета агрегації.

Я бачив принаймні один документ, який потім застосовує певну статистику до узагальнених даних [...] Чи правда це? Я б міг подумати, що процес усереднення змінить результат непогано, завдяки зниженому шуму.

Ця модифікація, швидше за все, є метою агрегування.

Загалом, вам дозволяється робити багато даних із вашими даними, але вам потрібно

  • скажіть, що ви робите (і краще також, чому це робите)
  • показати якість отриманої моделі (тест з незалежними даними)


н


5

YтХτм

Yт=α+βХ¯т+ут,(1)

Х¯т=1мгод=0м-1Хтм-год.

тХ30(т-1)+1,...,Х30т

Yт=α+βХ¯т(ш)+ут,(2)

з

Хт(ш)=год=1м-1шгодХтм-год.

шгодшгод=г(год,α)гα

шгод=1м

У налаштуваннях без регресії є результати, які показують, що агрегація може змінювати властивості часового ряду. Наприклад, якщо ви агрегуєте AR (1) процеси, які мають короткочасну пам'ять (співвідношення між двома спостереженнями часового ряду швидко відмирає, коли відстань між ними збільшується), ви можете отримати процес з довготривалою пам'яттю.

Отже, підводячи підсумок відповіді, що обґрунтованість застосування статистичних даних у сукупності даних є статистичним питанням. Залежно від моделі ви можете побудувати гіпотезу, чи це дійсна програма чи ні.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.