Властивості PCA для залежних спостережень


23

Ми зазвичай використовуємо PCA як метод зменшення розмірності для даних, коли випадки вважаються ідентичними

Запитання: Які типові нюанси у застосуванні PCA для залежних від неідентифікованих даних? Які приємні / корисні властивості PCA, які зберігаються для даних iid, поставлені під загрозу (або повністю втрачені)?

Наприклад, дані можуть бути багатоваріантним часовим рядом, і в цьому випадку можна очікувати автокореляції або авторегресивної умовної гетерокедастичності (ARCH).

Раніше було задано декілька пов'язаних питань щодо застосування ПКС до даних часових рядів, наприклад, 1 , 2 , 3 , 4 , але я шукаю більш загальну та всебічну відповідь (без потреби багато розширювати кожну окрему точку).

Редагувати: Як зазначає @ttnphns, PCA сама по собі не є інфекційним аналізом. Однак, можна зацікавити результати узагальнення PCA, тобто зосередити увагу на популяційному аналозі вибірки PCA. Наприклад, як написано у Надлері (2008) :

Якщо припустити, що дані є кінцевою та випадковою вибіркою з (як правило, невідомого) розподілу, цікавим теоретичним та практичним питанням є співвідношення між результатами вибірки PCA, обчисленими з кінцевих даних, та тими, що лежать в основі основної моделі популяції.

Список літератури:


14
Просто на замітку. PCA сама по собі не є інфекційним аналізом. Це перетворення багатовимірного набору даних чисел; її суть - просто svd або eigendecomposition. Тому це не передбачає незалежності спостереження. Припущення виникають, коли ми використовуємо PCA як статистичний інструмент для аналізу вибірок з популяцій. Але це не припущення PCA. Наприклад, тестування на сферичність для вирішення того, чи PCA виправдано для зменшення даних, вимагає незалежності, і тест може виглядати так, ніби тест припущення "всередині PCA", але насправді це "зовнішній" тест.
ttnphns

@ttnphns, дуже хороші моменти, дякую. Якщо ви бачите акуратний спосіб редагування моєї публікації, не соромтеся. Я про це теж подумаю.
Річард Харді

1
Річард, ваше питання чудове і важливе (+1). Просто, можливо, я б краще переказав це трохи таким чином, як "Ми зазвичай використовуємо PCA як зменшення розмірності для даних, коли передбачаються випадки ... Якими є типові нюанси застосування PCA для даних часових рядів, де випадки (час бали) відстають між собою ...? "
ttnphns

1
@amoeba, правильно. Але ми навряд чи зупиняємось лише на тому, щоб отримати завантаження ПК. На етапах, які зазвичай слідують за PCA, що нам слід пам’ятати в умовах неплатежі? Я сподіваюся, що відповідь може бути кращою, ніж питання (у його нинішньому формулюванні). Якщо ви дивитесь на це вільно / творчо, можливо, ви могли б запропонувати кілька хороших моментів.
Річард Харді

2
Звичайний PCA поважає лише "горизонтальні" асоціації (тобто між стовпцями) та ігнорує "вертикальні" (між справами): коваріаційна матриця стовпців однакова, якщо ви переміщуєте порядок випадків. Чи можна це назвати "жодних припущень щодо серійних відносин у справах" чи "припущення для незалежних випадків не зроблено" - це питання смаку. Припущення iid є типовим для аналізу даних, тому таким методам, які просто не звертають особливої ​​уваги на порядок справ, як PCA, можна присвоїти "мовчазну підтримку" для припущення iid.
ttnphns

Відповіді:


1

Імовірно, ви могли б додати компонент часу як додаткову функцію до вибіркових точок, а тепер вони є iid? В основному вихідні точки даних залежать від часу:

p(xiti)p(xi)

Але, якщо ми визначимо , то маємо:xi={xi,ti}

p(xiti)=p(xi)

... а вибірки даних тепер взаємно незалежні.

На практиці, включивши час як особливість у кожну точку даних, PCA може призвести до того, що один компонент просто вказує вздовж осі часової характеристики. Але якщо будь-які функції співвідносяться з часовою ознакою, компонент може складатися з однієї або декількох цих особливостей, а також часової функції.


1
Дякую за відповідь. Це був би дуже особливий випадок, коли час входить лінійно. Більш поширеним явищем є, наприклад, автокореляція, коли сам час не грає ролі як особливості.
Річард Харді

xtθxt1xtxt1θxt1

xt1
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.