Як інтерпретувати PCA за даними часових рядів?


19

Я намагаюся зрозуміти використання PCA в останній статті журналу під назвою "Зображення мозкової активності в масштабі з кластерними обчисленнями" Freeman et al., 2014 (безкоштовний pdf доступний на веб-сайті лабораторії ). Вони використовують PCA за даними часових рядів і використовують ваги PCA для створення карти мозку.

Дані - це дані середнього пробного зображення, що зберігаються у вигляді матриці (у статті називається ) із вокселями (або місцями зображення у мозку) time toints (довжина одиниці стимуляція до мозку).Y^n×t^

Вони використовують SVD, що призводить до ( вказує на переміщення матриці V ).

Y^=USV
VV

Автори констатують, що

Основні компоненти (стовпці V ) є векторами довжиною т , і оцінки (стовпці U ) є векторами довжини п (число вокселей), що описують проекцію кожного воксел на заданий напрямку з допомогою відповідного компонента , формуючи прогнози на об'єм, тобто карти цілого мозку.t^Un

Таким чином, ПК вектори довжини т . Як я можу тлумачити, що "перший головний компонент пояснює найбільшу дисперсію", як це зазвичай виражається в навчальних посібниках PCA? Ми почали з матриці багатьох сильно корельованих часових рядів - як один часовий ряд ПК пояснює дисперсію в початковій матриці? Я розумію ціле "обертання гауссової хмари точок до найрізноманітнішої осі", але я не впевнений, як це стосується часових рядів. Що означають автори за напрямом, коли вони заявляють: "бали (стовпці U ) - це вектори довжини nt^Un (кількість вокселів), що описує проекцію кожного вокселя на напрямок, заданий відповідним компонентом "? Як може час руху основного компонента мати напрямок?

Щоб побачити приклад результуючого часового ряду з лінійних комбінацій основних компонентів 1 і 2 та пов'язаної з ними мозкової карти, перейдіть за наступним посиланням та наведіть курсор миші на точки в графіку XY.

Фреман та ін.

Моє друге питання пов'язане з траєкторіями (держава-простір), які вони створюють, використовуючи результати основних компонентів.

Вони створюються, беручи перші 2 бали (у випадку прикладу "оптимотора", який я описав вище) і проектуємо окремі випробування (використовувані для створення пробної усередненої матриці, описаної вище) в основний підпростір за рівнянням:

J=UY.

Як ви можете бачити по зв'язаних фільмах, кожен слід у просторі стану представляє діяльність мозку в цілому.

Чи може хтось надати інтуїцію того, що означає кожен "кадр" кінофільму стану, порівняно з малюнком, який пов'язує графік XY з балів перших 2 ПК. Що означає для даного "кадру" для 1 випробування експерименту бути в 1 положенні в просторі стану XY, а в іншому випробуванні знаходитися в іншій позиції? Як позиції сюжету XY у фільмах співвідносяться із принциповими слідами компонентів у пов'язаній фігурі, згаданій у першій частині мого запитання?

Фріман та ін.


1
+1 Я відредагував ваше запитання, подивіться, як тут можна форматувати текстові рівняння. Крім того, я досить добре знаю папір, тому відповім пізніше.
Амеба каже, що повернеться до Моніки

1
Це не зовсім те, чого хоче ОП, але це може стати в нагоді при інтерпретації основних компонентів, взятих із даних часових рядів, як це я роблю постійно. Зазвичай мені подобається інтерпретувати PCA як розширення Кархунена-Лоева: вираження заданого часового ряду, (різні часові ряди, до яких ви застосовуєте PCA), як лінійну комбінацію некоррельованих часових рядів (тобто основних компонентів). Ваги кожного часового ряду в цьому випадку задаються власними векторами, отриманими з матриці коваріації. Xt
Нестор

1
(Дивіться це для більш поглибленого пояснення мого пункту: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )
Нестор

1
Я додав до вашого запитання кілька скріншотів, на які ви зверталися.
Амеба каже: Відновити Моніку

як ти додав фотографії?
statHacker

Відповіді:


16

Q1: Який зв'язок між тимчасовим рядом ПК та "максимальною дисперсією"?

t^nt^nRn

1t^RnRnt^

Я погоджуюся з тлумаченням @ Нестора вище: кожну оригінальну функцію можна розглядати як лінійну комбінацію ПК, а оскільки ПК не співвідносяться між собою, можна вважати їх основними функціями, на які розкладаються оригінальні функції. Це трохи схоже на аналіз Фур'є, але замість того, щоб приймати фіксовану основу синусів і косинусів, ми знаходимо "найбільш підходящу" основу для цього конкретного набору даних, в тому сенсі, що перший ПК припадає на більшість дисперсій тощо.

"Облік більшості дисперсій" тут означає, що якщо ви будете брати лише одну базову функцію (часовий ряд) і спробувати наблизити до неї всі свої функції, то перший ПК зробить найкращу роботу. Отже, основна інтуїція тут полягає в тому, що перший ПК - це базовий часовий ряд, який відповідає всім доступним часовим рядам найкращим і т.д.


Чому цей уривок у Freeman et al. так заплутано?

Y^

Y^=USV.
URnSVt^

Речення, яке ви цитували від Freeman et al. дійсно досить заплутано:

Основні компоненти (стовпці V ) є векторами довжиною т , і оцінки (стовпці U ) є векторами довжини п (число вокселей), що описують проекцію кожного воксел на заданий напрямку з Vt^Un

VUnt^t^U

Я вважаю це дуже заплутаним, тому пропоную ігнорувати їхній вибір слів, а лише подивитися на формули. З цього моменту я продовжуватиму використовувати терміни так, як вони мені подобаються, а не як Freeman et al. використовувати їх.


Q2: Які траєкторії простору стану?

UY^t^

Yt^

Y


Я поставив це запитання як коментар нижче, але, можливо, @amoeba може допомогти? Невже вектор основного вагового компонента просто середній часовий ряд згортається на всі вокселі? Якби це було середнім, то це призвело б до найменших балів, які підходили б до окремих слідів даних. -
statHacker

1
Коротка відповідь - ні , це, як правило, не середній часовий ряд, хоча у багатьох випадках він може бути досить близьким. Як приклад, уявіть колекцію часових рядів, які представляють собою прямі з різними нахилами (позитивні та негативні), які проходять через нуль. Тоді середній часовий ряд знаходиться біля постійного нуля. Але перший ПК буде сильною лінійною лінією. До речі, я вважаю, що це відмінне запитання, і якщо ви хочете більше деталей та / або цифр, будь ласка, задайте його (знову) як окреме питання. Просто не забудьте дублювати жодну частину цього питання про Freeman et al .; зробіть їх окремими.
амеба каже, що повернеться до Моніки

(або будь-хто інший, хто зацікавлений у відповіді) - стосовно Q2, що ви маєте на увазі під "проектом [кожного випробування] на перші два [ПК]". Математично зрозуміло, що U - вектор довжини n вокселів, і коли матриця, помножена на довжину n матриці Y, ми досягаємо зменшення розмірності до 1-х ПК. Чи можете ви надати інтуїцію щодо того, що U є матрицею балів (тобто відстань кожного вокселя від перших двох ПК). Чи можу я вважати кожну часову точку J як середньоквадратичну проекцію кожного положення вокселів у двовимірному графіку першого зображення вище?
statHacker

UU

SV

1

pVt^

Y^n×t^Un×nVt^×t^

Щодо другого питання. Наведене рівняння є

J=UTY

J×t

tt^J

t^

Я раніше не займався методологією фарбування, і пройде певний час, перш ніж я впевнено коментувати цей аспект. Я виявив, що коментар щодо подібності з фіг.4c є заплутаним, оскільки забарвлення отримується там за допомогою воксельної регресії. Тоді як на фіг.6 кожен слід є артефактом цілого зображення. Якщо я не кажу прямо, я думаю, що це напрямок стимулу протягом цього часового відрізка, як зазначено в коментарі на рисунку.


Перша цифра вище стосується експерименту з тим самим зоровим стимулом, що подається кожного разу. Для цих даних є інша цифра та фільм. Друга фігура вище стосується іншого експерименту, в якому подразники - це зорові подразники з різною орієнтацією, сліди на другому малюнку вище кольорові, щоб просто відповідати різним зоровим орієнтаціям стимулів.
statHacker

YT^ \n

VS
J=UY.
U

Я перевпорядкував речі. Вибачення, залишилось від того, як я щось розібрав.
здогадки

Дякую за всю вашу допомогу. Невже вектор основного вагового компонента просто середній часовий ряд згортається на всі вокселі? Якби це було середнім, то це призвело б до найменших балів, які підходили до окремих слідів даних.
statHacker
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.