Чи можна застосовувати PCA для даних часових рядів?


22

Я розумію, що аналіз основних компонентів (PCA) можна застосовувати в основному для даних поперечного перерізу. Чи може PCA ефективно використовуватись для даних часових рядів, вказавши рік як змінну часових рядів та нормально працює PCA? Я виявив, що динамічний PCA працює для панельних даних, а кодування в Stata призначене для даних панелі, а не часових рядів. Чи є певний тип PCA, який працює на даних часових рядів?

Оновлення. Дозвольте докладно пояснити.

В даний час я будую індекс інфраструктури в Індії зі змінними, такими як довжина дороги, довжина залізничного маршруту, потужність генерації електроенергії, кількість абонентів телефону і т.д. У мене є 12 змінних протягом 22 років для однієї країни. Хоча я переглянув документи, які застосовують PCA за часовими рядами та навіть даними на панелі, PCA розроблений для даних поперечного перерізу, що передбачає припущення про ідентифікацію. Дані панелі та поперечного перерізу порушують його, і PCA не враховує в ньому розмірність часових рядів. Я бачив, як динамічний PCA застосовується лише на панельних даних. Я хочу знати, чи є конкретна PCA, яка застосовується у часових рядах або працює статична PCA з роком, визначеним як змінна часового ряду, зробить цю роботу?


2
Сингулярний спектральний аналіз (SSA) часто називають PCA для часових рядів. en.wikipedia.org/wiki/Singular_spectrum_analysis
Владислав Довгалець

1
Перегляньте деякі публікації на бічній панелі праворуч (->), що стосуються PCA та часових рядів. Якщо будь-яка відповідь на ваше запитання, будь ласка, посилайтесь на це у коментарях тут, але якщо цього немає, ви можете пояснити конкретні способи, якими ваша проблема відрізняється від будь-якої з них.
Glen_b -Встановіть Моніку

Жоден з них не відповідає на питання pca про часові ряди. Конкретні запити з цієї теми або стосуються науки, або не відповідають на них.
Ніша Симон

5
PCA, як перетворення даних, зменшення розмірності, дослідження та візуалізація, не дає жодних припущень. Ви можете запускати їх на будь-яких даних, включаючи дані часових рядів. Насправді PCA дуже часто застосовується для даних часових рядів (іноді її називають "функціональною PCA", іноді ні). Я навіть не знаю, що мають означати "динамічний PCA" та "статичний PCA"; не хвилюйтесь і використовуйте стандартний PCA.
амеба каже, що повернеться до Моніки

Ви можете розглянути можливість використання функціональної PCA, спеціально розробленої для часових рядів. Пакет FDA в R реалізував fPCA. Ви зможете знайти багатоваріантний fPCA.
Енн

Відповіді:


8

12×12

Якщо ви зацікавлені в тому, щоб розкласти часовий домен, я також перевірив SSA, як було запропоновано в коментарях.

Коли ви (серіали) стаціонарні, одна коваріаційна матриця має сенс. Якщо ваші дані інтегровані порядку 1 або вище, як я підозрюю, що вони можуть бути, оцінка єдиної коваріаційної матриці не дасть послідовних результатів. Випадкова прогулянка, наприклад, інтегрована до порядку 1, і розрахункова коваріація двох випадкових прогулянок нічого не говорить про їх спільний рух, тут необхідний аналіз коінтеграції .

Як зазначено в коментарях, PCA сам по собі не дбає про стаціонарність, тому ви можете подати PCA будь-яку позитивну напіввизначену матрицю, і розкладання ПК буде добре в PCA-сенсі.

Але якщо ваша оціночна матриця коваріації не представляє нічого значимого щодо даних, то PCA, звичайно, не буде ні одним.


1
+1. Що ви маєте на увазі під "першими розбіжностями"?
Амеба каже: Відновіть Моніку

Я маю на увазі першу різницю, тому для кожного з дванадцяти x я зробив би x_t - x_t-1.
Дюффау

Тому ви пропонуєте робити PCA на похідних часу кожного часового ряду, на відміну від самих часових рядів. Це цікаво; чому це було б вашою першою пропозицією?
Амеба каже, що повернеться до Моніки

З двох причин: 1) Для того, щоб оцінка коваріації була послідовною, нормальне припущення поперечного перерізу полягає в тому, що дві випадкові величини будуть незалежними та однаково розподіленими (iid). Це забезпечує збіжність середньої вибірки до очікуваної величини, так званий Закон великих чисел (LLN). У аналізі часових рядів припущення про наявність двох стохастичних процесів є обмежуючим. Тож воно замінюється поняттям стаціонарності (різних видів). Щоб утримання LLN і оцінка коваріації були послідовними, два ряди повинні мати спільно нерухоме розподіл.
Duffau

Якщо кожен стохастичний процес є стаціонарним, то (я, мабуть, я дуже впевнений, що він) є спільним нерухомим, тому оцінка коваріації має сенс. Перші відмінності - це стандартна методика економетрики, щоб зробити часові ряди "більш нерухомими". І звідси оцінка і PCA прямо вперед. Отже, коротше, тому що це легко :-) .... ок, не було другої причини ..
Duffau

2

Так, PCA за часовими рядами проводиться весь час у фінансовій інженерії (кількісні фінанси) та неврології.

Xt×ptprt=log(Pt)log(Pt1)=log(Pt/Pt1)p×pXt×tковаріаційна матриця днів, з активами в рядках, щоб згортати дні, які співвідносяться в єдиний ПК, оскільки загальна думка полягає в тому, що дні можуть бути зайвими - і, коли подавати дані, наприклад, в нейронну мережу, ви не хочете рядки даних мають бути зайвими, або функції, які мають співвідносити (ви хочете, щоб вони були ортогональними), оскільки нейронна мережа витратить час на вивчення кореляції. Однак цей підхід не зосереджується на автокореляції.

γ=t/nXλ+Y=FnβX^=YY^Y=f1β , і відведення залишків для представлення нові дані, які будуть вилучені з широкою ринковою кореляцією. (оскільки перший ПК завжди представляє запаси з високою мультиколінеарністю). Такий підхід стосується настроїв ринку, орієнтованих на "стад-ментальність".

У неврології PCA проводиться за часовими рядами для потенціалів дії в різних діапазонах довжин хвиль, отриманих від ЕЕГ. Перетворення потенціалів дії в ортогональні (некоррельовані) ПК-вектори та введення ПК в інші аналізи є основним засобом, за допомогою якого статистична потужність збільшується при статистичному генетичному моделюванні складних ознак генетики поведінки (оскільки фенотипи, наприклад, двополярні, новизні, шукаюча, шизотипова, схозефренія часто перетинаються). Великі австралійські генетичні дослідження-близнюки допомогли розібрати ці особливості, що перекриваються, в генетиці поведінки, тому що, якщо між однаковими близнюками, які вирощуються разом (виростають в одному домогосподарстві), існують відмінності захворювання, причинно-наслідковий висновок може вказувати на вплив у різних середовищах, коли вони були старшими замість своєї ідентичної генетики.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.